Die Rückübersetzung von Einschränkungen verbessert das komplexe Befolgen von Anweisungen großer Sprachmodelle.
Constraint Back-translation Improves Complex Instruction Following of Large Language Models
October 31, 2024
Autoren: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben Schwierigkeiten, Anweisungen mit komplexen Einschränkungen in Format, Länge usw. zu befolgen. In Übereinstimmung mit der herkömmlichen Anpassungspraxis von Anweisungen führen frühere Arbeiten eine Nachschulung an komplexen Anweisungs-Antwort-Paaren durch, die durch die Zuführung komplexer Anweisungen an fortgeschrittene LLMs erzeugt werden. Selbst fortgeschrittene LLMs können jedoch komplexe Anweisungen nicht gut befolgen, was die Qualität der generierten Daten einschränkt. In dieser Arbeit stellen wir fest, dass bestehende Datensätze implizit komplexe Einschränkungen enthalten und schlagen eine neuartige Datengenerierungstechnik vor, die als Rückübersetzung von Einschränkungen bezeichnet wird. Konkret nehmen wir die hochwertigen Anweisungs-Antwort-Paare in bestehenden Datensätzen und verwenden nur fortgeschrittene LLMs, um bereits von den Antworten auf die Anweisungen erfüllte komplexe Einschränkungen hinzuzufügen, was die Kosten und Datenrauschen auf natürliche Weise reduziert. In den Experimenten verwenden wir Llama3-70B-Instruct zur Rückübersetzung von Einschränkungen und erstellen einen hochwertigen Datensatz für komplexe Anweisungs-Antwort-Paare namens CRAB. Wir zeigen, dass eine Nachschulung auf CRAB die Fähigkeit verschiedener Grundgerüst-LLMs zur Befolgung komplexer Anweisungen verbessert, die anhand umfangreicher Anweisungs-Befolgungs-Benchmarks bewertet werden. Wir stellen weiterhin fest, dass die Rückübersetzung von Einschränkungen auch als nützliches zusätzliches Schulungsziel in der Nachschulung dient. Unser Code, Daten und Modelle werden veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Large language models (LLMs) struggle to follow instructions with complex
constraints in format, length, etc. Following the conventional
instruction-tuning practice, previous works conduct post-training on complex
instruction-response pairs generated by feeding complex instructions to
advanced LLMs. However, even advanced LLMs cannot follow complex instructions
well, thus limiting the quality of generated data. In this work, we find that
existing datasets inherently contain implicit complex constraints and propose a
novel data generation technique, constraint back-translation. Specifically, we
take the high-quality instruction-response pairs in existing datasets and only
adopt advanced LLMs to add complex constraints already met by the responses to
the instructions, which naturally reduces costs and data noise. In the
experiments, we adopt Llama3-70B-Instruct to back-translate constraints and
create a high-quality complex instruction-response dataset, named CRAB. We
present that post-training on CRAB improves multiple backbone LLMs' complex
instruction-following ability, evaluated on extensive instruction-following
benchmarks. We further find that constraint back-translation also serves as a
useful auxiliary training objective in post-training. Our code, data, and
models will be released to facilitate future research.Summary
AI-Generated Summary