ChatPaper.aiChatPaper

생성적 기초 모델의 신뢰성에 관하여: 가이드라인, 평가 및 전망

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

February 20, 2025
저자: Yue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang
cs.AI

초록

생성형 기초 모델(Generative Foundation Models, GenFMs)은 혁신적인 도구로 부상하고 있습니다. 그러나 이러한 모델의 광범위한 채택은 다양한 차원에서의 신뢰성에 대한 중요한 우려를 제기합니다. 본 논문은 이러한 과제를 해결하기 위한 포괄적인 프레임워크를 세 가지 주요 기여를 통해 제시합니다. 첫째, 정부 및 규제 기관의 글로벌 AI 거버넌스 법률과 정책, 그리고 산업 관행과 표준을 체계적으로 검토합니다. 이를 바탕으로 기술적, 윤리적, 법적, 사회적 관점을 통합한 다학제적 협력을 통해 GenFMs를 위한 일련의 지침 원칙을 제안합니다. 둘째, 텍스트-이미지, 대형 언어, 그리고 비전-언어 모델을 포함한 다양한 모델 유형과 차원에서 신뢰성을 평가하기 위해 설계된 첫 번째 동적 벤치마킹 플랫폼인 TrustGen을 소개합니다. TrustGen은 메타데이터 큐레이션, 테스트 케이스 생성, 그리고 맥락적 변형과 같은 모듈식 구성 요소를 활용하여 적응적이고 반복적인 평가를 가능하게 함으로써 정적 평가 방법의 한계를 극복합니다. TrustGen을 사용하여 우리는 신뢰성에서의 상당한 진전을 보여주는 동시에 지속적인 과제를 식별합니다. 마지막으로, 신뢰할 수 있는 GenFMs를 위한 과제와 미래 방향에 대한 심층 논의를 제공하며, 이는 신뢰성의 복잡하고 진화하는 본질을 드러내고, 유용성과 신뢰성 사이의 미묘한 균형, 그리고 다양한 다운스트림 애플리케이션에 대한 고려를 강조하며, 지속적인 과제를 식별하고 미래 연구를 위한 전략적 로드맵을 제공합니다. 이 작업은 GenAI에서 신뢰성을 발전시키기 위한 종합적인 프레임워크를 구축함으로써 GenFMs를 중요한 애플리케이션에 더 안전하고 책임감 있게 통합하는 길을 열어줍니다. 커뮤니티의 발전을 촉진하기 위해 동적 평가를 위한 툴킷을 공개합니다.
English
Generative Foundation Models (GenFMs) have emerged as transformative tools. However, their widespread adoption raises critical concerns regarding trustworthiness across dimensions. This paper presents a comprehensive framework to address these challenges through three key contributions. First, we systematically review global AI governance laws and policies from governments and regulatory bodies, as well as industry practices and standards. Based on this analysis, we propose a set of guiding principles for GenFMs, developed through extensive multidisciplinary collaboration that integrates technical, ethical, legal, and societal perspectives. Second, we introduce TrustGen, the first dynamic benchmarking platform designed to evaluate trustworthiness across multiple dimensions and model types, including text-to-image, large language, and vision-language models. TrustGen leverages modular components--metadata curation, test case generation, and contextual variation--to enable adaptive and iterative assessments, overcoming the limitations of static evaluation methods. Using TrustGen, we reveal significant progress in trustworthiness while identifying persistent challenges. Finally, we provide an in-depth discussion of the challenges and future directions for trustworthy GenFMs, which reveals the complex, evolving nature of trustworthiness, highlighting the nuanced trade-offs between utility and trustworthiness, and consideration for various downstream applications, identifying persistent challenges and providing a strategic roadmap for future research. This work establishes a holistic framework for advancing trustworthiness in GenAI, paving the way for safer and more responsible integration of GenFMs into critical applications. To facilitate advancement in the community, we release the toolkit for dynamic evaluation.

Summary

AI-Generated Summary

PDF392February 21, 2025