MTU-Bench: 대규모 언어 모델을 위한 다중 미세먼지도구 벤치마크

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

October 15, 2024
저자: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI

초록

대형 언어 모델 (LLM)은 추론 및 의사 결정 능력에서 엄청난 향상을 보여주었으며 사용자와 자연스러운 대화를 할 수 있습니다. 최근에는 많은 도구 사용 벤치마크 데이터셋이 제안되었습니다. 그러나 기존 데이터셋은 다음과 같은 제한 사항이 있습니다: (1) 충분하지 않은 평가 시나리오 (예: 한정된 도구 사용 장면만 다룸). (2) 평가 비용이 많이 듦 (예: GPT API 비용). 이러한 제한 사항을 해결하기 위해 본 연구에서는 대형 언어 모델을 위한 다중 단계 도구 사용 벤치마크인 MTU-Bench를 제안합니다. "다중 단계" 특성을 갖는 MTU-Bench는 다섯 가지 도구 사용 장면 (즉, 단일 턴 및 단일 도구, 단일 턴 및 다중 도구, 다중 턴 및 단일 도구, 다중 턴 및 다중 도구, 그리고 분포 범위를 벗어난 작업)을 포함합니다. 또한, MTU-Bench의 모든 평가 메트릭은 GPT나 인간 평가 메트릭을 사용하지 않고 예측 결과와 실제 값에 기반합니다. 게다가, MTU-Bench는 기존 고품질 데이터셋을 변형하여 실제 도구 사용 시나리오를 시뮬레이션하고, 기존 LLM의 도구 사용 능력을 향상시키기 위해 MTU-Instruct 데이터라는 지시 데이터셋을 제안합니다. 포괄적인 실험 결과가 우리의 MTU-Bench의 효과를 입증합니다. 코드와 데이터는 https://github.com/MTU-Bench-Team/MTU-Bench.git에서 공개될 예정입니다.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.

Summary

AI-Generated Summary

논문 개요

이 논문은 대형 언어 모델을 위한 다중 단계 도구 사용 시나리오를 평가하기 위한 MTU-Bench를 제안하였으며, MTU-Instruct를 통해 기존 LLM의 도구 사용 능력을 향상시키는 방법을 소개하였다. 실험 결과는 MTU-Bench의 효과를 입증하였다.

핵심 기여

  • MTU-Bench: 다양한 도구 사용 시나리오를 포함한 벤치마크 도구 제안
  • MTU-Instruct: 기존 LLM의 도구 사용 능력 향상을 위한 데이터 수집 및 도구 생성 방법 소개
  • 실험 결과: MTU-LLaMA 모델이 다양한 도구 사용 설정에서 우수한 성능을 보임

연구 맥락

이 연구는 대형 언어 모델의 도구 사용 능력을 평가하고 향상시키는 방법에 초점을 맞추고 있다.

주요 용어

  • MTU-Bench: 다중 단계 도구 사용을 위한 벤치마크 도구
  • MTU-Instruct: 기존 LLM의 도구 사용 능력 향상을 위한 데이터 및 도구 생성 방법
  • MTU-LLaMA: 다양한 도구 사용 설정에서 우수한 성능을 보이는 모델

배경

이 연구는 대형 언어 모델의 도구 사용 능력을 평가하고 향상시키는 방법을 탐구하며, 이를 위한 MTU-Bench와 MTU-Instruct를 제안하였다.

연구 간격

  • 기존 연구에서 대형 언어 모델의 도구 사용 능력에 대한 평가 부족
  • 기술적 도전: 다중 단계 도구 사용 시나리오의 복잡성
  • 이전 방법: 기존 데이터셋 변환 및 새로운 도구 생성

방법론

이 논문은 GPT-4 모델을 사용하여 도구 선택 및 사용법을 결정하고, 대화 데이터를 도구 사용 데이터로 변환하는 방법을 제안하였다.

이론적 기초

  • GPT-4 모델을 활용한 도구 선택 및 사용법 생성
  • 대화 데이터를 도구 사용 데이터로 변환

기술적 아키텍처

  • 다양한 대화 턴 및 도구 수에 따른 데이터 유형 분류
  • 종합적이고 세부적인 평가 지표 도입

구현 세부 사항

  • 도구 선택, 도구 호출에 사용된 매개변수 및 값 생성
  • 도구 실행 시뮬레이션 및 결과 생성

혁신 포인트

  • 다양한 도구 사용 설정에서의 효과적인 성능 평가 지표 도입

실험 검증

MTU-Bench를 통해 다양한 실험을 수행하고, MTU-LLaMA 모델의 우수한 성능을 입증하였다.

설정

  • 5개의 LLM 평가
  • 다양한 도구 사용 설정에서 모델 결과 비교

메트릭

  • 도구 선택 정확도, 매개변수 선택 정확도, 성공률 등

결과

  • MTU-LLaMA의 향상된 성과 확인
  • 다중 턴 및 다중 도구 설정에서의 성능 변화 분석

비교 분석

  • 다양한 모델의 성능 비교

영향 및 함의

이 논문은 MTU-Bench와 MTU-Instruct를 통해 대형 언어 모델의 도구 사용 능력을 향상시키는 방법을 제시하고, 실제 산업 및 학술 분야에 적용 가능한 기술적 혁신을 제공한다.

주요 결과

  • MTU-Bench의 다양한 평가 지표 및 실험 결과
  • MTU-Eval의 평가 프레임워크 소개
  • 다양한 도구 사용 설정에서의 성능 평가 지표 제시

한계

  • 모델의 오류 유형 및 개선 방안에 대한 추가 연구 필요

향후 방향

  • 더 많은 도구 사용 시나리오에 대한 평가
  • 다양한 도구 사용 설정에서의 성능 향상을 위한 연구

실용적 중요성

  • 산업 및 학술 분야에서의 대형 언어 모델의 도구 사용 능력 향상 가능성 제시

주요 논문

DeepSeek-R1: 강화 학습을 통해 LLMs의 추론 능력을 유도하기
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Qwen2.5 기술 보고서
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252826

PDF202November 16, 2024