ChatPaper.aiChatPaper

CritiQ: Извлечение критериев качества данных на основе человеческих предпочтений

CritiQ: Mining Data Quality Criteria from Human Preferences

February 26, 2025
Авторы: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI

Аннотация

Языковые модели в значительной степени зависят от высококачественных данных для оптимальной работы. Существующие подходы полагаются на ручную разработку эвристик, перплексию существующих моделей, обучение классификаторов или тщательное проектирование промптов, что требует значительного экспертного опыта и усилий по аннотированию данных, а также вносит предвзятость. Мы представляем CritiQ — новый метод отбора данных, который автоматически извлекает критерии из человеческих предпочтений для оценки качества данных, используя всего 30 аннотированных пар, и выполняет эффективный отбор данных. Основной компонент, CritiQ Flow, использует агента-менеджера для развития критериев качества и агентов-исполнителей для попарных суждений. Мы создаем базу знаний, которая извлекает критерии качества из предыдущих работ, чтобы усилить CritiQ Flow. По сравнению с методами, основанными на перплексии и классификаторах, вербальные критерии более интерпретируемы и обладают повторно используемой ценностью. После вывода критериев мы обучаем CritiQ Scorer для присвоения оценок качества и выполнения эффективного отбора данных. Мы демонстрируем эффективность нашего метода в областях кода, математики и логики, достигая высокой точности на аннотированных человеком тестовых наборах. Для проверки качества отобранных данных мы продолжаем обучение моделей Llama 3.1 и наблюдаем улучшение производительности на последующих задачах по сравнению с равномерной выборкой. Абляционные исследования подтверждают преимущества базы знаний и процесса рефлексии. Мы анализируем, как эволюционируют критерии, и эффективность голосования большинством.
English
Language model heavily depends on high-quality data for optimal performance. Existing approaches rely on manually designed heuristics, the perplexity of existing models, training classifiers, or careful prompt engineering, which require significant expert experience and human annotation effort while introduce biases. We introduce CritiQ, a novel data selection method that automatically mines criteria from human preferences for data quality with only sim30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments. We build a knowledge base that extracts quality criteria from previous work to boost CritiQ Flow. Compared to perplexity- and classifier- based methods, verbal criteria are more interpretable and possess reusable value. After deriving the criteria, we train the CritiQ Scorer to give quality scores and perform efficient data selection. We demonstrate the effectiveness of our method in the code, math, and logic domains, achieving high accuracy on human-annotated test sets. To validate the quality of the selected data, we continually train Llama 3.1 models and observe improved performance on downstream tasks compared to uniform sampling. Ablation studies validate the benefits of the knowledge base and the reflection process. We analyze how criteria evolve and the effectiveness of majority voting.

Summary

AI-Generated Summary

PDF92February 27, 2025