Rapport technique sur l'alignement de Baichuan

Résumé

Nous présentons Baichuan Alignment, une analyse détaillée des techniques d'alignement utilisées dans la série de modèles Baichuan. Cela représente le premier compte rendu exhaustif de méthodologies d'alignement de l'industrie, offrant des perspectives précieuses pour faire progresser la recherche en IA. Nous examinons les composants critiques qui améliorent les performances du modèle pendant le processus d'alignement, y compris les méthodes d'optimisation, les stratégies de données, les améliorations de capacité et les processus d'évaluation. Le processus se déroule en trois étapes clés : Système d'Augmentation de l'Incitation (SAI), Fine-Tuning Supervisé (FTS) et Alignement des Préférences. Les problèmes rencontrés, les solutions appliquées et les améliorations apportées sont consciencieusement enregistrés. À travers des comparaisons sur des références bien établies, nous mettons en évidence les avancées technologiques permises par Baichuan Alignment. Baichuan-Instruct est un modèle interne, tandis que Qwen2-Nova-72B et Llama3-PBM-Nova-70B sont des versions instruct des modèles de base Qwen2-72B et Llama-3-70B, optimisés grâce à Baichuan Alignment. Baichuan-Instruct démontre des améliorations significatives dans les capacités essentielles, avec des gains d'expérience utilisateur allant de 17 % à 28 %, et se comporte exceptionnellement bien sur des références spécialisées. Dans les évaluations de références open-source, à la fois Qwen2-Nova-72B et Llama3-PBM-Nova-70B surpassent systématiquement leurs versions instruct officielles respectives sur presque tous les ensembles de données. Ce rapport vise à clarifier les technologies clés derrière le processus d'alignement, favorisant une compréhension plus approfondie au sein de la communauté. Le modèle Llama3-PBM-Nova-70B est disponible sur https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.

English

We introduce Baichuan Alignment, a detailed analysis of the alignment techniques employed in the Baichuan series of models. This represents the industry's first comprehensive account of alignment methodologies, offering valuable insights for advancing AI research. We investigate the critical components that enhance model performance during the alignment process, including optimization methods, data strategies, capability enhancements, and evaluation processes. The process spans three key stages: Prompt Augmentation System (PAS), Supervised Fine-Tuning (SFT), and Preference Alignment. The problems encountered, the solutions applied, and the improvements made are thoroughly recorded. Through comparisons across well-established benchmarks, we highlight the technological advancements enabled by Baichuan Alignment. Baichuan-Instruct is an internal model, while Qwen2-Nova-72B and Llama3-PBM-Nova-70B are instruct versions of the Qwen2-72B and Llama-3-70B base models, optimized through Baichuan Alignment. Baichuan-Instruct demonstrates significant improvements in core capabilities, with user experience gains ranging from 17% to 28%, and performs exceptionally well on specialized benchmarks. In open-source benchmark evaluations, both Qwen2-Nova-72B and Llama3-PBM-Nova-70B consistently outperform their respective official instruct versions across nearly all datasets. This report aims to clarify the key technologies behind the alignment process, fostering a deeper understanding within the community. Llama3-PBM-Nova-70B model is available at https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.

Rapport technique sur l'alignement de Baichuan

Baichuan Alignment Technical Report

Résumé

Support