MolReFlect: 분자와 텍스트 간 맥락 내 세밀한 정렬을 향하여
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
November 22, 2024
저자: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI
초록
분자 발견은 약물부터 사용하는 물질까지 모든 것에 영향을 미치는 중요한 연구 분야입니다. 최근에는 대형 언어 모델(LLMs)이 분자 이해와 생성에 널리 채택되었지만, 분자와 해당 캡션 간의 정렬은 여전히 중요한 과제입니다. 이전 노력들은 종종 분자를 일반 SMILES 문자열이나 분자 그래프로 취급하여 분자 하위 구조와 설명적 텍스트 구문 간의 세밀한 정렬을 무시했습니다. 이는 정확하고 설명 가능한 예측에 중요한 요소입니다. 이 경우 MolReFlect를 소개합니다. MolReFlect는 세밀한 방식으로 분자-캡션 정렬을 수행하기 위해 설계된 새로운 교사-학생 프레임워크입니다. 저희 방법은 먼저 더 큰 교사 LLM을 활용하여 분자 캡션이나 SMILES 문자열에서 중요 구문을 직접 추출하고 해당 하위 구조나 특성에 함의하여 상세한 정렬을 라벨링합니다. 이러한 정렬을 개선하기 위해 In-Context Selective Reflection을 제안하여 교사 LLM이 반영할 수 있도록 이전 추출 결과를 컨텍스트 예제로 검색하고, 작은 학생 LLM이 컨텍스트 반영 및 이전 추출 결과에서 선택할 수 있도록 합니다. 마지막으로 Chain-of-Thought In-Context Molecule Tuning을 통해 학생 LLM의 학습 과정을 강화하여 Chain-of-Thought 형식 내에서 세밀한 정렬과 추론 프로세스를 통합합니다. 저희 실험 결과는 MolReFlect가 Mistral-7B와 같은 LLM을 통해 이전 벤치마크를 크게 능가하여 ChEBI-20 데이터셋에서 SOTA 성능을 달성할 수 있음을 보여줍니다. 이 발전은 LLM의 생성 능력을 향상시키는데 그치지 않고 분자-캡션 번역 작업에서 더 설명 가능한 프레임워크에 기여합니다.
English
Molecule discovery is a pivotal research field, impacting everything from the
medicines we take to the materials we use. Recently, Large Language Models
(LLMs) have been widely adopted in molecule understanding and generation, yet
the alignments between molecules and their corresponding captions remain a
significant challenge. Previous endeavours often treat the molecule as a
general SMILES string or molecular graph, neglecting the fine-grained
alignments between the molecular sub-structures and the descriptive textual
phrases, which are crucial for accurate and explainable predictions. In this
case, we introduce MolReFlect, a novel teacher-student framework designed to
contextually perform the molecule-caption alignments in a fine-grained way. Our
approach initially leverages a larger teacher LLM to label the detailed
alignments by directly extracting critical phrases from molecule captions or
SMILES strings and implying them to corresponding sub-structures or
characteristics. To refine these alignments, we propose In-Context Selective
Reflection, which retrieves previous extraction results as context examples for
teacher LLM to reflect and lets a smaller student LLM select from in-context
reflection and previous extraction results. Finally, we enhance the learning
process of the student LLM through Chain-of-Thought In-Context Molecule Tuning,
integrating the fine-grained alignments and the reasoning processes within the
Chain-of-Thought format. Our experimental results demonstrate that MolReFlect
enables LLMs like Mistral-7B to significantly outperform the previous
baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement
not only enhances the generative capabilities of LLMs in the molecule-caption
translation task, but also contributes to a more explainable framework.Summary
AI-Generated Summary