커쿠: LLM 공식의 인터네트에 반응한 IE 프리라이더
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
February 16, 2025
저자: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI
초록
대규모 고품질 데이터인 사전 훈련 원시 텍스트와 사후 훈련 주석은 고급 대형 언어 모델(LLMs)을 육성하기 위해 주의 깊게 준비되었습니다. 반면, 정보 추출(IE)의 경우, BIO 태그가 지정된 시퀀스와 같은 사전 훈련 데이터는 확장하기 어렵습니다. 우리는 IE 모델이 다음 토큰 예측을 추출로 재구성함으로써 LLM 자원에 무료로 탑승할 수 있다는 것을 보여줍니다. 구체적으로, 우리가 제안하는 다음 토큰 추출(NTE) 패러다임은 다재다능한 IE 모델인 Cuckoo를 학습하며, 102.6M의 추출 데이터를 사용하여 LLM의 사전 훈련 및 사후 훈련 데이터로부터 변환되었습니다. 소수의 데이터셋 설정에서, Cuckoo는 기존 사전 훈련된 IE 모델보다 더 나은 성능으로 전통적이고 복잡한 지시 따르기 IE에 효과적으로 적응합니다. 무료 탑승자로서, Cuckoo는 추가적인 수동 노력 없이 LLM 데이터 준비의 지속적인 발전으로 진화할 수 있으며, LLM 훈련 파이프라인의 개선으로 혜택을 받을 수 있습니다.
English
Massive high-quality data, both pre-training raw texts and post-training
annotations, have been carefully prepared to incubate advanced large language
models (LLMs). In contrast, for information extraction (IE), pre-training data,
such as BIO-tagged sequences, are hard to scale up. We show that IE models can
act as free riders on LLM resources by reframing next-token prediction
into extraction for tokens already present in the context. Specifically,
our proposed next tokens extraction (NTE) paradigm learns a versatile IE model,
Cuckoo, with 102.6M extractive data converted from LLM's pre-training
and post-training data. Under the few-shot setting, Cuckoo adapts effectively
to traditional and complex instruction-following IE with better performance
than existing pre-trained IE models. As a free rider, Cuckoo can naturally
evolve with the ongoing advancements in LLM data preparation, benefiting from
improvements in LLM training pipelines without additional manual effort.Summary
AI-Generated Summary