ChatPaper.aiChatPaper

Konzepte der Skalierung zur Inferenzzeit können generative Vor-Trainingsalgorithmen verbessern.

Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

March 10, 2025
Autoren: Jiaming Song, Linqi Zhou
cs.AI

Zusammenfassung

In den letzten Jahren gab es bedeutende Fortschritte bei Foundation-Modellen durch generatives Pre-Training, doch die algorithmische Innovation in diesem Bereich hat sich weitgehend auf autoregressive Modelle für diskrete Signale und Diffusionsmodelle für kontinuierliche Signale beschränkt. Diese Stagnation schafft einen Engpass, der uns daran hindert, das Potenzial von reichhaltigen multimodalen Daten vollständig auszuschöpfen, was wiederum den Fortschritt bei multimodaler Intelligenz begrenzt. Wir argumentieren, dass eine Inferenz-zuerst-Perspektive, die die Skalierungseffizienz während der Inferenzzeit über Sequenzlänge und Verfeinerungsschritte priorisiert, neue generative Pre-Training-Algorithmen inspirieren kann. Am Beispiel von Inductive Moment Matching (IMM) zeigen wir, wie die gezielte Behebung von Einschränkungen im Inferenzprozess von Diffusionsmodellen durch gezielte Modifikationen zu einem stabilen, einstufigen Algorithmus führt, der eine überlegene Probenqualität bei einer um mehr als eine Größenordnung höheren Inferenzeffizienz erreicht.
English
Recent years have seen significant advancements in foundation models through generative pre-training, yet algorithmic innovation in this space has largely stagnated around autoregressive models for discrete signals and diffusion models for continuous signals. This stagnation creates a bottleneck that prevents us from fully unlocking the potential of rich multi-modal data, which in turn limits the progress on multimodal intelligence. We argue that an inference-first perspective, which prioritizes scaling efficiency during inference time across sequence length and refinement steps, can inspire novel generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a concrete example, we demonstrate how addressing limitations in diffusion models' inference process through targeted modifications yields a stable, single-stage algorithm that achieves superior sample quality with over an order of magnitude greater inference efficiency.

Summary

AI-Generated Summary

PDF22March 12, 2025