ChatPaper.aiChatPaper

최약 환송 법칙: 대형 언어 모델의 교차 능력

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
저자: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

초록

대형 언어 모델(LLMs)의 개발 및 평가는 주로 개별 능력에 초점을 맞추었습니다. 그러나 이는 종종 실제 과제에 필요한 다양한 전문성 간의 교차 능력, 즉 교차 능력을 간과합니다. 이 개념을 체계적으로 탐구하기 위해, 우리는 먼저 일곱 가지 핵심 개별 능력을 정의하고, 이를 짝지어 일곱 가지 공통 교차 능력을 형성하였으며, 각각은 수동으로 구축된 분류법에 의해 지원됩니다. 이러한 정의를 기반으로, 우리는 1,400개의 인간 주석이 달린 프롬프트로 이루어진 CrossEval 벤치마크를 소개합니다. 각 개별 및 교차 능력에 100개의 프롬프트가 포함되어 있습니다. 신뢰할 수 있는 평가를 보장하기 위해 전문 주석가들을 참여시켜 4,200개의 모델 응답을 평가하고, 상세한 설명을 포함한 8,400개의 인간 평가를 수집하여 참조 예제로 활용합니다. 우리의 연구 결과는 현재 LLMs가 "최약 환승의 법칙"을 일관되게 나타내며, 교차 능력 성능이 가장 약한 구성 요소에 의해 심각하게 제약된다는 것을 밝혀냅니다. 구체적으로, 17개 모델의 58가지 교차 능력 점수 중 38가지는 모든 개별 능력보다 낮으며, 20가지는 강한 능력과 약한 능력 사이에 위치하지만, 보다 약한 능력에 더 가깝습니다. 이러한 결과는 LLMs의 교차 능력 과제에서의 성능 저하를 강조하며, 미래 연구에서 성능을 최적화하기 위해 가장 약한 능력을 식별하고 개선하는 것이 중요한 우선 순위임을 보여줍니다.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.

Summary

AI-Generated Summary

PDF552November 13, 2024