바이트 잠재 트랜스포머: 패치가 토큰보다 더 나은 스케일링을 보여줍니다.
Byte Latent Transformer: Patches Scale Better Than Tokens
December 13, 2024
저자: Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
cs.AI
초록
우리는 Byte Latent Transformer (BLT)를 소개합니다. 이는 토큰화 기반 LLM의 성능을 처음으로 규모에 맞춰 달성하면서 추론 효율성과 견고성을 크게 향상시킨 새로운 바이트 수준의 LLM 아키텍처입니다. BLT는 바이트를 동적 크기의 패치로 인코딩하며, 이는 주요 계산 단위로 작용합니다. 패치는 다음 바이트의 엔트로피를 기반으로 분할되어, 데이터 복잡성이 증가하는 경우에 더 많은 계산 및 모델 용량을 할당합니다. 우리는 8B 매개변수 및 4T 트레이닝 바이트까지의 바이트 수준 모델에 대한 첫 번째 FLOP 제어 스케일링 연구를 제시합니다. 결과는 고정 어휘 없이 원시 바이트로 훈련된 모델의 스케일링이 가능함을 보여줍니다. 데이터가 예측 가능할 때 장기적인 패치를 동적으로 선택함으로써 훈련 및 추론 효율성이 향상되며, 추론 및 장기 일반화에 대한 질적 향상도 이루어집니다. 전반적으로, 고정된 추론 비용에 대해 BLT는 패치와 모델 크기를 동시에 확장하여 토큰화 기반 모델보다 훨씬 더 나은 스케일링을 보여줍니다.
English
We introduce the Byte Latent Transformer (BLT), a new byte-level LLM
architecture that, for the first time, matches tokenization-based LLM
performance at scale with significant improvements in inference efficiency and
robustness. BLT encodes bytes into dynamically sized patches, which serve as
the primary units of computation. Patches are segmented based on the entropy of
the next byte, allocating more compute and model capacity where increased data
complexity demands it. We present the first FLOP controlled scaling study of
byte-level models up to 8B parameters and 4T training bytes. Our results
demonstrate the feasibility of scaling models trained on raw bytes without a
fixed vocabulary. Both training and inference efficiency improve due to
dynamically selecting long patches when data is predictable, along with
qualitative improvements on reasoning and long tail generalization. Overall,
for fixed inference costs, BLT shows significantly better scaling than
tokenization-based models, by simultaneously growing both patch and model size.