MolReFlect:朝向分子和文本之間的上下文細粒度對齊

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

November 22, 2024
作者: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI

摘要

分子發現是一個重要的研究領域,影響著我們服用的藥物和使用的材料等方方面面。最近,大型語言模型(LLMs)已被廣泛應用於分子理解和生成,然而分子與其相應標題之間的對齊仍然是一個重大挑戰。先前的努力通常將分子視為一個通用的SMILES字符串或分子圖,忽略了分子子結構與描述性文本短語之間的細粒度對齊,這對於準確和可解釋的預測至關重要。在這種情況下,我們介紹了MolReFlect,這是一個新穎的師生框架,旨在以細粒度的方式在上下文中執行分子-標題對齊。我們的方法最初利用一個更大的師生LLM來標記詳細的對齊,通過直接從分子標題或SMILES字符串中提取關鍵短語並將其暗示給相應的子結構或特徵。為了改進這些對齊,我們提出了In-Context Selective Reflection,它檢索以前的提取結果作為師生LLM反映的上下文示例,並讓較小的學生LLM從上下文反映和以前的提取結果中進行選擇。最後,我們通過Chain-of-Thought In-Context Molecule Tuning增強了學生LLM的學習過程,將細粒度的對齊和推理過程融入Chain-of-Thought格式中。我們的實驗結果表明,MolReFlect使像Mistral-7B這樣的LLMs能夠顯著優於以前的基準線,在ChEBI-20數據集上實現了SOTA性能。這一進步不僅增強了LLMs在分子-標題翻譯任務中的生成能力,還有助於構建更具解釋性的框架。
English
Molecule discovery is a pivotal research field, impacting everything from the medicines we take to the materials we use. Recently, Large Language Models (LLMs) have been widely adopted in molecule understanding and generation, yet the alignments between molecules and their corresponding captions remain a significant challenge. Previous endeavours often treat the molecule as a general SMILES string or molecular graph, neglecting the fine-grained alignments between the molecular sub-structures and the descriptive textual phrases, which are crucial for accurate and explainable predictions. In this case, we introduce MolReFlect, a novel teacher-student framework designed to contextually perform the molecule-caption alignments in a fine-grained way. Our approach initially leverages a larger teacher LLM to label the detailed alignments by directly extracting critical phrases from molecule captions or SMILES strings and implying them to corresponding sub-structures or characteristics. To refine these alignments, we propose In-Context Selective Reflection, which retrieves previous extraction results as context examples for teacher LLM to reflect and lets a smaller student LLM select from in-context reflection and previous extraction results. Finally, we enhance the learning process of the student LLM through Chain-of-Thought In-Context Molecule Tuning, integrating the fine-grained alignments and the reasoning processes within the Chain-of-Thought format. Our experimental results demonstrate that MolReFlect enables LLMs like Mistral-7B to significantly outperform the previous baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement not only enhances the generative capabilities of LLMs in the molecule-caption translation task, but also contributes to a more explainable framework.

Summary

AI-Generated Summary

論文概述

本文介紹了一個新的師生架構MolReFlect,旨在實現分子-文字對齊的細粒度對齊,通過三個主要階段:零點對齊提取、內文選擇性反射和CoT-ICMT。MolReFlect在ChEBI-20數據集上實驗,表現優異,探索了分子和文本之間的細粒度對齊,提供了新的解決方案,並在分子-文字翻譯任務中實現了最先進的性能。

核心貢獻

  • 提出MolReFlect師生架構,實現分子-文字對齊的細粒度對齊。
  • 包含三個主要階段:零點對齊提取、內文選擇性反射和CoT-ICMT。
  • 在ChEBI-20數據集上實驗,達到最先進的性能。

研究背景

本研究針對分子-文字對齊的細粒度對齊問題,提出MolReFlect解決方案。先前方法在此領域存在缺陷,需要更好的對齊策略和架構。

研究缺口

  • 先前方法在分子-文字對齊中缺乏細粒度對齊。
  • 需要解決分子和文本之間的精確對齊問題。

技術挑戰

  • 如何實現分子-文字之間的細粒度對齊。
  • 如何在師生架構中有效整合對齊策略。

先前方法

  • 先前方法未能實現分子-文字的細粒度對齊。
  • 缺乏有效的師生架構來解決此問題。

方法論

本文方法論包括三個主要部分:理論基礎、技術架構、實現細節和創新點。

理論基礎

  • 使用零點對齊提取、內文選擇性反射和CoT-ICMT實現細粒度對齊。
  • 基於師生架構實現分子-文字對齊。

技術架構

  • 包括零點對齊提取、內文選擇性反射和CoT-ICMT三個階段。
  • 通過師生架構實現對齊策略的有效整合。

實現細節

  • 利用師生LLM進行細粒度對齊。
  • 通過不同階段的處理提高對齊質量。

創新點

  • 提出細粒度對齊的師生架構。
  • CoT-ICMT階段利用LLM的推理能力。

實驗驗證

本文實驗在ChEBI-20數據集上進行,包括設置、指標、結果和比較分析。

設置

  • 使用ChEBI-20數據集進行實驗。
  • 評估Mol2Cap和Cap2Mol任務。

指標

  • 使用評估指標比較MolReFlect和基線模型。
  • 包括微觀對齊統計、分子性質預測等。

結果

  • MolReFlect在所有指標上均優於基線模型。
  • 在Mol2Cap和Cap2Mol任務中實現了卓越性能。

比較分析

  • 進行MolReFlect與現有基線模型的比較。
  • 通過實驗結果證實MolReFlect的優越性。

影響和意義

本文研究結果具有重要影響和意義,包括關鍵發現、局限性、未來方向和實際意義。

關鍵發現

  • MolReFlect在分子-文字翻譯任務中實現了最先進的性能。
  • 通過細粒度對齊提高了模型性能。

局限性

  • 教師LLM難以過濾細粒度對齊中的噪聲。
  • 需要進一步改進對齊策略。

未來方向

  • 探索更有效的對齊策略。
  • 擴展到其他領域的應用。

實際意義

  • MolReFlect提供了一種新的解決方案,有助於提高分子-文字翻譯的準確性。
  • 可應用於藥物設計和化學領域的研究。

熱門論文

1比特LLM時代:所有大型語言模型都在1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu WeiFeb 27, 2024612142

DeepSeek-R1:通過強化學習激勵LLM中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Qwen2.5 技術報告
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

PDF52November 27, 2024