ChatPaper.aiChatPaper

대형 언어 모델의 정직성에 대한 조사

A Survey on the Honesty of Large Language Models

September 27, 2024
저자: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI

초록

정직은 대규모 언어 모델(LLMs)을 인간의 가치와 조화롭게 하는 데 필수적인 원칙으로, 이러한 모델이 스스로가 무엇을 알고 무엇을 모르는지를 인식하고 그 지식을 충실히 표현할 수 있어야 한다. 약속된 바에도 불구하고 현재의 LLMs는 여전히 잘못된 답변을 확신 있게 제시하거나 알고 있는 것을 표현하지 못하는 등 중요한 부정직한 행동을 보여주고 있다. 게다가 LLMs의 정직성에 대한 연구는 정직성의 다양한 정의, 알려진 지식과 알려지지 않은 지식을 구별하는 어려움, 관련 연구에 대한 포괄적인 이해 부족 등의 어려움에 직면하고 있다. 이러한 문제에 대처하기 위해 우리는 LLMs의 정직성에 대한 조사를 제공하며, 이를 명확히 하고, 평가 방법, 개선 전략을 다루고 있다. 더불어, 미래 연구에 대한 통찰을 제공하여 이 중요한 영역에서의 추가 탐구를 고무하기 위한 목적을 가지고 있다.
English
Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don't know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.

Summary

AI-Generated Summary

PDF333November 16, 2024