ZIP-FIT: Embedding-vrije Gegevensselectie via Compressie-gebaseerde Uitlijning

Samenvatting

Data selectie is cruciaal voor het optimaliseren van de prestaties van taalmodellen (LM) voor specifieke taken, maar de meeste bestaande methoden falen in het effectief overwegen van de distributie van de doeltaak. Huidige benaderingen negeren vaak volledig de taakspecifieke vereisten of vertrouwen op benaderingen die de verfijnde patronen die nodig zijn voor taken zoals Autoformalisatie of codegeneratie niet goed vastleggen. Methoden die wel rekening houden met de doeldistributie vertrouwen vaak op eenvoudige, soms lawaaierige, representaties, zoals gehashte n-gram kenmerken, die tot botsingen kunnen leiden en ruis kunnen introduceren. We introduceren ZIP-FIT, een data selectiekader dat gzip-compressie gebruikt om de afstemming tussen potentiële trainingsdata en de doeltaakdistributie direct te meten. In uitgebreide evaluaties op Autoformalisatie en Python codegeneratie presteert ZIP-FIT aanzienlijk beter dan toonaangevende baselines zoals DSIR en D4. Modellen getraind op door ZIP-FIT geselecteerde data behalen hun laagste kruis-entropie verlies tot wel 85,1% sneller dan baselines, wat aantoont dat een betere taakafstemming leidt tot efficiënter leren. Bovendien voert ZIP-FIT de selectie tot wel 65,8% sneller uit dan DSIR en twee ordes van grootte sneller dan D4. Opmerkelijk is dat ZIP-FIT aantoont dat kleinere, goed-afgestemde datasets vaak beter presteren dan grotere maar minder gerichte datasets, wat aantoont dat een kleine hoeveelheid data van hogere kwaliteit superieur is aan een grote hoeveelheid data van lagere kwaliteit. Onze resultaten impliceren dat taakbewuste data selectie cruciaal is voor efficiënte domeinaanpassing, en dat compressie een principiële manier biedt om taakafstemming te meten. Door te laten zien dat gerichte data selectie de taakspecifieke prestaties aanzienlijk kan verbeteren, biedt ons werk nieuwe inzichten in de relatie tussen datakwaliteit, taakafstemming en modelleer efficiëntie.

English

Data selection is crucial for optimizing language model (LM) performance on specific tasks, yet most existing methods fail to effectively consider the target task distribution. Current approaches either ignore task-specific requirements entirely or rely on approximations that fail to capture the nuanced patterns needed for tasks like Autoformalization or code generation. Methods that do consider the target distribution often rely on simplistic, sometimes noisy, representations, like hashed n-gram features, which can lead to collisions and introduce noise. We introduce ZIP-FIT, a data selection framework that uses gzip compression to directly measure alignment between potential training data and the target task distribution. In extensive evaluations on Autoformalization and Python code generation, ZIP-FIT significantly outperforms leading baselines like DSIR and D4. Models trained on ZIP-FIT-selected data achieve their lowest cross-entropy loss up to 85.1\% faster than baselines, demonstrating that better task alignment leads to more efficient learning. In addition, ZIP-FIT performs selection up to 65.8\% faster than DSIR and two orders of magnitude faster than D4. Notably, ZIP-FIT shows that smaller, well-aligned datasets often outperform larger but less targeted ones, demonstrating that a small amount of higher quality data is superior to a large amount of lower quality data. Our results imply that task-aware data selection is crucial for efficient domain adaptation, and that compression offers a principled way to measure task alignment. By showing that targeted data selection can dramatically improve task-specific performance, our work provides new insights into the relationship between data quality, task alignment, and model learning efficiency.

ZIP-FIT: Embedding-vrije Gegevensselectie via Compressie-gebaseerde Uitlijning

ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment

Samenvatting

Support