TOMG-Bench: 텍스트 기반 오픈 분자 생성에 대한 LLMs 평가
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation
December 19, 2024
저자: Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li
cs.AI
초록
본 논문에서는 LLMs의 오픈 도메인 분자 생성 능력을 평가하기 위한 최초의 벤치마크 인 Text-based Open Molecule Generation Benchmark (TOMG-Bench)을 제안합니다. TOMG-Bench에는 분자 편집 (MolEdit), 분자 최적화 (MolOpt), 그리고 사용자 정의 분자 생성 (MolCustom)의 세 가지 주요 작업 데이터셋이 포함됩니다. 각 작업은 또한 5,000개의 테스트 샘플로 구성된 세 개의 하위 작업을 포함합니다. 오픈 분자 생성의 본질적인 복잡성을 감안하여, 생성된 분자의 품질과 정확도를 측정하는 데 도움이 되는 자동 평가 시스템을 개발했습니다. 25개의 LLMs에 대한 포괄적인 벤치마킹을 통해 텍스트로 안내되는 분자 발견에서 현재의 제한 사항과 개선 가능한 영역을 밝혀내었습니다. 더 나아가, TOMG-Bench에서 제기된 도전 과제를 해결하기 위해 제안된 전용 지침 조정 데이터셋인 OpenMolIns의 지원을 통해, Llama3.1-8B는 모든 오픈 소스 일반 LLMs를 능가하여 GPT-3.5-turbo를 46.5% 초과로 TOMG-Bench에서 앞설 수 있었습니다. 저희의 코드와 데이터셋은 https://github.com/phenixace/TOMG-Bench를 통해 이용할 수 있습니다.
English
In this paper, we propose Text-based Open Molecule Generation Benchmark
(TOMG-Bench), the first benchmark to evaluate the open-domain molecule
generation capability of LLMs. TOMG-Bench encompasses a dataset of three major
tasks: molecule editing (MolEdit), molecule optimization (MolOpt), and
customized molecule generation (MolCustom). Each task further contains three
subtasks, with each subtask comprising 5,000 test samples. Given the inherent
complexity of open molecule generation, we have also developed an automated
evaluation system that helps measure both the quality and the accuracy of the
generated molecules. Our comprehensive benchmarking of 25 LLMs reveals the
current limitations and potential areas for improvement in text-guided molecule
discovery. Furthermore, with the assistance of OpenMolIns, a specialized
instruction tuning dataset proposed for solving challenges raised by
TOMG-Bench, Llama3.1-8B could outperform all the open-source general LLMs, even
surpassing GPT-3.5-turbo by 46.5\% on TOMG-Bench. Our codes and datasets are
available through https://github.com/phenixace/TOMG-Bench.