大規模言語モデルが非構造化テキストデータの判断者としての可能性と危険性

Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

January 14, 2025
著者: Rewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar
cs.AI

要旨

大規模言語モデルの急速な進歩により、非構造化テキストデータの処理と要約において顕著な能力が開かれました。これは、調査回答などの豊富でオープンエンドなデータセットの分析に影響を与え、LLMが主要なテーマや感情を効率的に抽出する可能性を秘めています。しかしながら、組織がこれらの強力なAIシステムをテキストフィードバックの意味を理解するためにますます活用する中で、重要な問題が生じます。LLMがこれらのテキストベースのデータセットに含まれる視点を正確に表現することができるかどうかです。LLMは人間らしい要約を生成する点で優れていますが、その出力が元の回答の真の内容から誤って逸脱する可能性があります。LLMが生成した出力とデータに実際に存在するテーマとの不一致は、組織にとって遠隔的な影響を持つ誤った意思決定につながる可能性があります。この研究は、他のLLMによって生成された要約のテーマの整合性を評価するための判定モデルとしてのLLMの効果を調査しています。我々はAnthropic Claudeモデルを使用してオープンエンドの調査回答からテーマの要約を生成し、AmazonのTitan Express、Nova Pro、MetaのLlamaをLLMの判定者として使用しました。LLMによる判定アプローチは、Cohenのカッパ、Spearmanのロー、Krippendorffのアルファを使用した人間による評価と比較され、従来の人間中心の評価方法に対するスケーラブルな代替手段を検証しました。我々の調査結果は、LLMが判定者として提供するスケーラブルな解決策が人間の評価者と同等であることを示していますが、人間は微妙で文脈に特有のニュアンスを検出する点で優れている可能性があります。この研究は、AIによるテキスト分析に関する知識の増大に貢献しています。我々は制約事項を議論し、将来の研究に対する推奨事項を提供し、LLM判定モデルをさまざまな文脈やユースケースに一般化する際の慎重な考慮の必要性を強調しています。
English
Rapid advancements in large language models have unlocked remarkable capabilities when it comes to processing and summarizing unstructured text data. This has implications for the analysis of rich, open-ended datasets, such as survey responses, where LLMs hold the promise of efficiently distilling key themes and sentiments. However, as organizations increasingly turn to these powerful AI systems to make sense of textual feedback, a critical question arises, can we trust LLMs to accurately represent the perspectives contained within these text based datasets? While LLMs excel at generating human-like summaries, there is a risk that their outputs may inadvertently diverge from the true substance of the original responses. Discrepancies between the LLM-generated outputs and the actual themes present in the data could lead to flawed decision-making, with far-reaching consequences for organizations. This research investigates the effectiveness of LLMs as judge models to evaluate the thematic alignment of summaries generated by other LLMs. We utilized an Anthropic Claude model to generate thematic summaries from open-ended survey responses, with Amazon's Titan Express, Nova Pro, and Meta's Llama serving as LLM judges. The LLM-as-judge approach was compared to human evaluations using Cohen's kappa, Spearman's rho, and Krippendorff's alpha, validating a scalable alternative to traditional human centric evaluation methods. Our findings reveal that while LLMs as judges offer a scalable solution comparable to human raters, humans may still excel at detecting subtle, context-specific nuances. This research contributes to the growing body of knowledge on AI assisted text analysis. We discuss limitations and provide recommendations for future research, emphasizing the need for careful consideration when generalizing LLM judge models across various contexts and use cases.

Summary

AI-Generated Summary

PDF62January 15, 2025