ScholarCopilot: Addestramento di Modelli Linguistici di Grandi Dimensioni per la Scrittura Accademica con Citazioni Accurate
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Autori: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Abstract
La scrittura accademica richiede sia la generazione di testi coerenti che la citazione precisa della letteratura pertinente. Sebbene i recenti sistemi di Generazione Aumentata con Recupero (RAG) abbiano migliorato significativamente l'accuratezza fattuale nella generazione di testi di uso generale, la loro capacità di supportare adeguatamente la scrittura accademica professionale rimane limitata. In questo lavoro, introduciamo ScholarCopilot, un framework unificato progettato per potenziare i modelli linguistici di grandi dimensioni esistenti nella generazione di articoli accademici professionali con citazioni accurate e contestualmente rilevanti. ScholarCopilot determina dinamicamente quando recuperare riferimenti accademici generando un token di recupero [RET], e utilizza poi la sua rappresentazione per cercare citazioni pertinenti da un database. I riferimenti recuperati vengono inseriti nel modello per aumentare il processo di generazione. Ottimizziamo congiuntamente sia la generazione che le attività di citazione all'interno di un unico framework per aumentare l'efficienza. Addestrato su 500.000 articoli di arXiv, il nostro modello raggiunge un'accuratezza di recupero top-1 del 40,1% sul nostro dataset di valutazione, superando i baseline come E5-Mistral-7B-Instruct (15,0%) e BM25 (9,8%). Su un dataset di 1.000 campioni di scrittura accademica, ScholarCopilot ottiene un punteggio di 16,2/25 nella qualità della generazione (misurata in termini di rilevanza, coerenza, rigore accademico, completezza e innovazione), superando modelli con 10 volte più parametri come Qwen-2.5-72B-Instruct (15,8/25). Studi umani confermano anche la performance superiore di ScholarCopilot nel richiamo delle citazioni, nell'efficienza della scrittura e nell'esperienza complessiva dell'utente, confermando l'efficacia del nostro approccio.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary