ChatPaper.aiChatPaper

언어, 음성 및 시각 작업에 대한 인간 피드백을 활용한 선호도 조정: 설문조사

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey

September 17, 2024
저자: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI

초록

선호 튜닝은 심층 생성 모델을 인간의 선호와 조율하는 중요한 과정입니다. 본 설문은 최근 선호 튜닝 및 인간 피드백 통합의 최신 발전을 철저히 살펴봅니다. 논문은 세 가지 주요 섹션으로 구성되어 있습니다: 1) 소개 및 준비 작업: 강화 학습 프레임워크, 선호 튜닝 작업, 모델 및 데이터셋에 대한 소개, 다양한 모달리티(언어, 음성, 시각) 및 다양한 정책 접근 방식, 2) 각 선호 튜닝 접근 방식의 심층적인 검토: 선호 튜닝에 사용된 방법의 상세 분석, 그리고 3) 응용, 토론 및 미래 방향: 선호 튜닝의 응용 프로그램 탐색, 하류 작업에서의 평가 방법, 다양한 모달리티에 대한 전망 및 미래 연구 방향에 대한 탐구가 포함됩니다. 우리의 목표는 연구자와 실무자들을 위해 이 분야의 최신 방법론을 제시하여 선호 튜닝과 모델 조율에 대한 이해를 높이는 것입니다. 이 영역에서의 추가 참여와 혁신을 촉진하기를 희망합니다.
English
Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth examination of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.

Summary

AI-Generated Summary

PDF212November 16, 2024