Accelerare il ragionamento parallelizzabile attraverso il decoding parallelo all'interno di una singola sequenza
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence
March 26, 2025
Autori: Yijiong Yu
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento hanno dimostrato significativi miglioramenti in termini di accuratezza, in particolare per compiti complessi come il ragionamento matematico, grazie all'impiego di processi di ragionamento dettagliati e completi. Tuttavia, la generazione di queste lunghe sequenze di ragionamento è computazionalmente costosa e richiede molto tempo. Per affrontare questa inefficienza, sfruttiamo l'intrinseca parallelizzabilità di determinati compiti per accelerare il processo di ragionamento. Nello specifico, quando esistono più rami di ragionamento paralleli, decodifichiamo più token per passo utilizzando una maschera di attenzione specializzata, elaborandoli all'interno di una singola sequenza e evitando un ulteriore utilizzo di memoria. I risultati sperimentali mostrano che il nostro metodo raggiunge un incremento di velocità superiore al 100% nel tempo di decodifica, mantenendo invariata la qualità delle risposte.
English
Recent advances in reasoning models have demonstrated significant
improvements in accuracy, particularly for complex tasks such as mathematical
reasoning, by employing detailed and comprehensive reasoning processes.
However, generating these lengthy reasoning sequences is computationally
expensive and time-consuming. To address this inefficiency, we leverage the
inherent parallelizability of certain tasks to accelerate the reasoning
process. Specifically, when multiple parallel reasoning branches exist, we
decode multiple tokens per step using a specialized attention mask, processing
them within a single sequence, avoiding additional memory usage. Experimental
results show that our method achieves over 100% speedup in decoding time while
maintaining the answer quality.Summary
AI-Generated Summary