ScholarCopilot: Addestramento di Modelli Linguistici di Grandi Dimensioni per la Scrittura Accademica con Citazioni Accurate

Abstract

La scrittura accademica richiede sia la generazione di testi coerenti che la citazione precisa della letteratura pertinente. Sebbene i recenti sistemi di Generazione Aumentata con Recupero (RAG) abbiano migliorato significativamente l'accuratezza fattuale nella generazione di testi di uso generale, la loro capacità di supportare adeguatamente la scrittura accademica professionale rimane limitata. In questo lavoro, introduciamo ScholarCopilot, un framework unificato progettato per potenziare i modelli linguistici di grandi dimensioni esistenti nella generazione di articoli accademici professionali con citazioni accurate e contestualmente rilevanti. ScholarCopilot determina dinamicamente quando recuperare riferimenti accademici generando un token di recupero [RET], e utilizza poi la sua rappresentazione per cercare citazioni pertinenti da un database. I riferimenti recuperati vengono inseriti nel modello per aumentare il processo di generazione. Ottimizziamo congiuntamente sia la generazione che le attività di citazione all'interno di un unico framework per aumentare l'efficienza. Addestrato su 500.000 articoli di arXiv, il nostro modello raggiunge un'accuratezza di recupero top-1 del 40,1% sul nostro dataset di valutazione, superando i baseline come E5-Mistral-7B-Instruct (15,0%) e BM25 (9,8%). Su un dataset di 1.000 campioni di scrittura accademica, ScholarCopilot ottiene un punteggio di 16,2/25 nella qualità della generazione (misurata in termini di rilevanza, coerenza, rigore accademico, completezza e innovazione), superando modelli con 10 volte più parametri come Qwen-2.5-72B-Instruct (15,8/25). Studi umani confermano anche la performance superiore di ScholarCopilot nel richiamo delle citazioni, nell'efficienza della scrittura e nell'esperienza complessiva dell'utente, confermando l'efficacia del nostro approccio.

English

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their capacity to adequately support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], and then utilizes its representation to look up relevant citations from a database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to increase efficiency. Trained on 500K papers from arXiv, our model achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured across relevance, coherence, academic rigor, completeness, and innovation), surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct (15.8/25). Human studies also confirm ScholarCopilot's superior performance in citation recall, writing efficiency, and overall user experience, confirming the effectiveness of our approach.

ScholarCopilot: Addestramento di Modelli Linguistici di Grandi Dimensioni per la Scrittura Accademica con Citazioni Accurate

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Abstract

Summary

Support

Support