Dalla Generazione al Giudizio: Opportunità e Sfide di LLM-come-giudice
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
November 25, 2024
Autori: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI
Abstract
Valutazione e analisi sono da tempo sfide critiche nell'intelligenza artificiale (AI) e nell'elaborazione del linguaggio naturale (NLP). Tuttavia, i metodi tradizionali, che siano basati su corrispondenza o su embedding, spesso non riescono a valutare attributi sottili e a fornire risultati soddisfacenti. I recenti progressi nei Grandi Modelli Linguistici (LLM) ispirano il paradigma "LLM-come-giudice", dove i LLM sono impiegati per eseguire valutazioni, classificazioni o selezioni in varie attività e applicazioni. Questo articolo fornisce un'esaustiva panoramica sulla valutazione e giudizio basati su LLM, offrendo una visione approfondita per far progredire questo campo emergente. Iniziamo fornendo definizioni dettagliate da prospettive sia di input che di output. Successivamente introduciamo una tassonomia completa per esplorare il concetto di LLM-come-giudice da tre dimensioni: cosa giudicare, come giudicare e dove giudicare. Infine, raccogliamo benchmark per valutare il LLM-come-giudice e evidenziamo le sfide principali e le direzioni promettenti, con l'obiettivo di offrire preziose intuizioni e ispirare futuri studi in questa promettente area di ricerca. La lista degli articoli e ulteriori risorse su LLM-come-giudice sono disponibili su https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge e https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial
intelligence (AI) and natural language processing (NLP). However, traditional
methods, whether matching-based or embedding-based, often fall short of judging
subtle attributes and delivering satisfactory results. Recent advancements in
Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs
are leveraged to perform scoring, ranking, or selection across various tasks
and applications. This paper provides a comprehensive survey of LLM-based
judgment and assessment, offering an in-depth overview to advance this emerging
field. We begin by giving detailed definitions from both input and output
perspectives. Then we introduce a comprehensive taxonomy to explore
LLM-as-a-judge from three dimensions: what to judge, how to judge and where to
judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and
highlight key challenges and promising directions, aiming to provide valuable
insights and inspire future research in this promising research area. Paper
list and more resources about LLM-as-a-judge can be found at
https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and
https://llm-as-a-judge.github.io.Summary
AI-Generated Summary