Die Rückübersetzung von Einschränkungen verbessert das komplexe Befolgen von Anweisungen großer Sprachmodelle.

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

October 31, 2024
Autoren: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben Schwierigkeiten, Anweisungen mit komplexen Einschränkungen in Format, Länge usw. zu befolgen. In Übereinstimmung mit der herkömmlichen Anpassungspraxis von Anweisungen führen frühere Arbeiten eine Nachschulung an komplexen Anweisungs-Antwort-Paaren durch, die durch die Zuführung komplexer Anweisungen an fortgeschrittene LLMs erzeugt werden. Selbst fortgeschrittene LLMs können jedoch komplexe Anweisungen nicht gut befolgen, was die Qualität der generierten Daten einschränkt. In dieser Arbeit stellen wir fest, dass bestehende Datensätze implizit komplexe Einschränkungen enthalten und schlagen eine neuartige Datengenerierungstechnik vor, die als Rückübersetzung von Einschränkungen bezeichnet wird. Konkret nehmen wir die hochwertigen Anweisungs-Antwort-Paare in bestehenden Datensätzen und verwenden nur fortgeschrittene LLMs, um bereits von den Antworten auf die Anweisungen erfüllte komplexe Einschränkungen hinzuzufügen, was die Kosten und Datenrauschen auf natürliche Weise reduziert. In den Experimenten verwenden wir Llama3-70B-Instruct zur Rückübersetzung von Einschränkungen und erstellen einen hochwertigen Datensatz für komplexe Anweisungs-Antwort-Paare namens CRAB. Wir zeigen, dass eine Nachschulung auf CRAB die Fähigkeit verschiedener Grundgerüst-LLMs zur Befolgung komplexer Anweisungen verbessert, die anhand umfangreicher Anweisungs-Befolgungs-Benchmarks bewertet werden. Wir stellen weiterhin fest, dass die Rückübersetzung von Einschränkungen auch als nützliches zusätzliches Schulungsziel in der Nachschulung dient. Unser Code, Daten und Modelle werden veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs' complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.

Summary

AI-Generated Summary

PDF152November 13, 2024