미세 조정과 모델 병합을 통해 범용 특징 추적하기

Tracking Universal Features Through Fine-Tuning and Model Merging

October 16, 2024
저자: Niels Horn, Desmond Elliott
cs.AI

초록

우리는 다른 텍스트 도메인에서 세밀하게 조정된 모델들 사이에서 특징이 어떻게 발생하고 사라지며 유지되는지 연구합니다. 더 구체적으로는, 우리는 BabyLM 말뭉치와 The Stack의 Python 코드 컬렉션을 결합하여 훈련된 기본 단일 레이어 Transformer 언어 모델에서 시작합니다. 이 기본 모델은 각각 TinyStories와 Lua 프로그래밍 언어 두 새로운 텍스트 도메인으로 적응되며, 그런 다음 이 두 모델은 구면 선형 보간을 사용하여 병합됩니다. 우리의 탐구는 소규모 모델과 희소 오토인코더를 사용하여 전형적인 전이 학습 시나리오에서 특징의 안정성과 변형에 대한 심층적인 통찰력을 제공하는 것을 목표로 합니다.
English
We study how features emerge, disappear, and persist across models fine-tuned on different domains of text. More specifically, we start from a base one-layer Transformer language model that is trained on a combination of the BabyLM corpus, and a collection of Python code from The Stack. This base model is adapted to two new domains of text: TinyStories, and the Lua programming language, respectively; and then these two models are merged using these two models using spherical linear interpolation. Our exploration aims to provide deeper insights into the stability and transformation of features across typical transfer-learning scenarios using small-scale models and sparse auto-encoders.

Summary

AI-Generated Summary

논문 개요

이 논문은 Transfer-learning 시나리오에서 특징의 안정성과 변화를 밝히는 데 중점을 두었으며, 희소 오토인코더를 활용하여 특징 활성화 패턴을 추출하고 상관 관계를 분석했습니다. 연구 결과로는 특징의 일부가 유지되고 해석 가능함이 확인되었으며, 프로그래밍 언어와 관련된 특징이 주로 유지되는 것으로 나타났습니다.

핵심 기여

  • Transfer-learning 시나리오에서 특징의 안정성과 변화를 규명
  • 희소 오토인코더를 활용하여 특징 활성화 패턴 추출 및 상관 관계 분석

연구 맥락

이 연구는 Transfer-learning 환경에서 특징의 변화를 조사하고, 특징의 안정성을 분석하여 기존 연구들과의 차별화를 시도했습니다.

주요 용어

  • Transfer-learning
  • 특징 안정성
  • 희소 오토인코더
  • 활성화 패턴
  • 상관 관계 분석

배경

이 논문은 Transfer-learning 시나리오에서 특징의 안정성과 변화를 연구하였습니다. 이에 따라 희소 오토인코더를 활용하여 특징의 활성화 패턴을 추출하고 상관 관계를 분석하였습니다.

연구 간격

  • Transfer-learning 시나리오에서 특징의 변화에 대한 구체적인 이해 부족
  • 특징의 안정성과 변화에 대한 분석 부재

기술적 도전

  • 특징의 안정성을 양적으로 측정하는 방법론 부재
  • Transfer-learning 시나리오에서 특징의 유지, 등장, 소멸 여부를 명확히 확인하는 기술적 어려움

이전 방법론

  • 기존 연구에서는 Transfer-learning 시나리오에서 특징의 변화를 다룬 연구가 제한적

방법론

이 논문에서는 1-layer Transformer 언어 모델을 사용하고, BabyLM 코퍼스와 Python 코드를 합쳐 훈련된 기본 모델을 활용하였습니다. 또한, TinyStories 및 Lua 프로그래밍 언어에 맞게 모델을 fine-tuning하고 이 두 모델을 병합하였습니다.

이론적 기반

  • 1-layer Transformer 모델을 기반으로 함
  • 희소 오토인코더를 활용하여 특징 추출

기술적 아키텍처

  • NVIDIA A100 40GB GPU에서 각 모델 및 오토인코더를 훈련하는 데 걸리는 시간 기술

구현 세부사항

  • 모델 병합을 위해 spherical linear interpolation 기법 사용
  • 특징의 진화를 측정하기 위해 상관 관계 분석 및 특징의 유지, 등장, 소멸 여부 확인

혁신적 포인트

  • Transfer-learning 시나리오에서 특징의 변화를 양적으로 측정하고, 특정 특징의 케이스 스터디 제시

실험 검증

이 논문에서는 BabyPython 모델을 기반으로 Lua 및 TinyStories 모델을 fine-tuning하고 병합하였습니다. 또한, 희소 오토인코더를 사용하여 특징 활성화 패턴을 추출하고 상관 관계를 분석하였습니다.

설정

  • BabyPython 모델을 기반으로 Lua 및 TinyStories 모델을 fine-tuning하고 병합
  • 희소 오토인코더를 사용하여 특징 추출

메트릭

  • 상관 관계 분석을 통해 특징의 진화를 측정
  • 로그 우도 비율을 특징 분석에 활용

결과

  • 대부분의 특징이 사라지고 일부 특징은 지속되며 해석 가능함을 확인
  • 특정 특징의 케이스 스터디를 통해 특징의 흐름을 상세히 분석

비교 분석

  • 두 유사한 Transformer 간에 학습된 기능이 동일 데이터에서 동일 하이퍼파라미터로 훈련된 경우와 같이 잘 상관되지 않음을 확인

영향과 함의

이 연구는 Transfer-learning 시나리오에서 특징의 안정성과 변화에 대한 심층적인 분석을 제공하며, 특징의 진화를 양적으로 측정하는 방법론을 제시하였습니다.

주요 결과

  • 특징의 일부가 유지되고 해석 가능함이 확인됨
  • 특정 특징의 유니버셜성 확인 및 특징의 진화를 양적으로 측정함

한계

  • 더 크고 다양한 자연어 말뭉치의 기능 진화 동역학을 포착하지 못할 수 있음

미래 방향

  • 자동 해석 가능성을 향상시키기 위한 추가 연구 필요
  • 다양한 도메인에서의 실험을 통해 일반화 가능성 탐구

실용적 중요성

  • Transfer-learning 시나리오에서의 특징 변화를 이해하고, 모델 성능 향상에 활용 가능함.

주요 논문

DeepSeek-R1: 강화 학습을 통해 LLMs의 추론 능력을 유도하기
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Qwen2.5 기술 보고서
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252826

PDF52November 16, 2024