ZIP-FIT : Sélection de données sans incorporation d'embedding via un alignement basé sur la compression
ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment
October 23, 2024
Auteurs: Elyas Obbad, Iddah Mlauzi, Brando Miranda, Rylan Schaeffer, Kamal Obbad, Suhana Bedi, Sanmi Koyejo
cs.AI
Résumé
La sélection des données est cruciale pour optimiser les performances des modèles de langage (LM) sur des tâches spécifiques, cependant la plupart des méthodes existantes échouent à considérer efficacement la distribution de la tâche cible.
Les approches actuelles ignorent soit complètement les exigences spécifiques de la tâche, soit se basent sur des approximations qui ne capturent pas les motifs nuancés nécessaires pour des tâches telles que l'autoformalisation ou la génération de code.
Les méthodes qui prennent en compte la distribution cible reposent souvent sur des représentations simplistes, parfois bruitées, comme les caractéristiques d'hashed n-grammes, qui peuvent entraîner des collisions et introduire du bruit.
Nous introduisons ZIP-FIT, un cadre de sélection de données qui utilise la compression gzip pour mesurer directement l'alignement entre les données d'entraînement potentielles et la distribution de la tâche cible.
Lors d'évaluations approfondies sur l'autoformalisation et la génération de code Python, ZIP-FIT surpasse significativement les références principales comme DSIR et D4.
Les modèles entraînés sur des données sélectionnées par ZIP-FIT atteignent leur plus basse perte d'entropie croisée jusqu'à 85,1\% plus rapidement que les références, démontrant qu'un meilleur alignement de la tâche conduit à un apprentissage plus efficace.
De plus, ZIP-FIT effectue la sélection jusqu'à 65,8\% plus rapidement que DSIR et deux ordres de grandeur plus rapidement que D4.
Notamment, ZIP-FIT montre que des ensembles de données plus petits et bien alignés surpassent souvent des ensembles plus grands mais moins ciblés, démontrant qu'une petite quantité de données de meilleure qualité est supérieure à une grande quantité de données de moindre qualité.
Nos résultats impliquent que la sélection de données consciente de la tâche est cruciale pour une adaptation de domaine efficace, et que la compression offre une manière fondée de mesurer l'alignement de la tâche.
En montrant que la sélection de données ciblée peut améliorer considérablement les performances spécifiques à la tâche, notre travail apporte de nouvelles perspectives sur la relation entre la qualité des données, l'alignement de la tâche et l'efficacité de l'apprentissage du modèle.
English
Data selection is crucial for optimizing language model (LM) performance on
specific tasks, yet most existing methods fail to effectively consider the
target task distribution.
Current approaches either ignore task-specific requirements entirely or rely
on approximations that fail to capture the nuanced patterns needed for tasks
like Autoformalization or code generation.
Methods that do consider the target distribution often rely on simplistic,
sometimes noisy, representations, like hashed n-gram features, which can lead
to collisions and introduce noise.
We introduce ZIP-FIT, a data selection framework that uses gzip compression
to directly measure alignment between potential training data and the target
task distribution.
In extensive evaluations on Autoformalization and Python code generation,
ZIP-FIT significantly outperforms leading baselines like DSIR and D4.
Models trained on ZIP-FIT-selected data achieve their lowest cross-entropy
loss up to 85.1\% faster than baselines, demonstrating that better task
alignment leads to more efficient learning.
In addition, ZIP-FIT performs selection up to 65.8\% faster than DSIR and two
orders of magnitude faster than D4.
Notably, ZIP-FIT shows that smaller, well-aligned datasets often outperform
larger but less targeted ones, demonstrating that a small amount of higher
quality data is superior to a large amount of lower quality data.
Our results imply that task-aware data selection is crucial for efficient
domain adaptation, and that compression offers a principled way to measure task
alignment.
By showing that targeted data selection can dramatically improve
task-specific performance, our work provides new insights into the relationship
between data quality, task alignment, and model learning efficiency.Summary
AI-Generated Summary