Konzepte der Skalierung zur Inferenzzeit können generative Vor-Trainingsalgorithmen verbessern.
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
March 10, 2025
Autoren: Jiaming Song, Linqi Zhou
cs.AI
Zusammenfassung
In den letzten Jahren gab es bedeutende Fortschritte bei Foundation-Modellen durch
generatives Pre-Training, doch die algorithmische Innovation in diesem Bereich hat sich
weitgehend auf autoregressive Modelle für diskrete Signale und Diffusionsmodelle
für kontinuierliche Signale beschränkt. Diese Stagnation schafft einen Engpass, der
uns daran hindert, das Potenzial von reichhaltigen multimodalen Daten vollständig
auszuschöpfen, was wiederum den Fortschritt bei multimodaler Intelligenz begrenzt.
Wir argumentieren, dass eine Inferenz-zuerst-Perspektive, die die Skalierungseffizienz
während der Inferenzzeit über Sequenzlänge und Verfeinerungsschritte priorisiert,
neue generative Pre-Training-Algorithmen inspirieren kann. Am Beispiel von Inductive
Moment Matching (IMM) zeigen wir, wie die gezielte Behebung von Einschränkungen
im Inferenzprozess von Diffusionsmodellen durch gezielte Modifikationen zu einem
stabilen, einstufigen Algorithmus führt, der eine überlegene Probenqualität bei einer
um mehr als eine Größenordnung höheren Inferenzeffizienz erreicht.
English
Recent years have seen significant advancements in foundation models through
generative pre-training, yet algorithmic innovation in this space has largely
stagnated around autoregressive models for discrete signals and diffusion
models for continuous signals. This stagnation creates a bottleneck that
prevents us from fully unlocking the potential of rich multi-modal data, which
in turn limits the progress on multimodal intelligence. We argue that an
inference-first perspective, which prioritizes scaling efficiency during
inference time across sequence length and refinement steps, can inspire novel
generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a
concrete example, we demonstrate how addressing limitations in diffusion
models' inference process through targeted modifications yields a stable,
single-stage algorithm that achieves superior sample quality with over an order
of magnitude greater inference efficiency.Summary
AI-Generated Summary