AutoTrain: 최첨단 모델을 위한 노코드 학습
AutoTrain: No-code training for state-of-the-art models
October 21, 2024
저자: Abhishek Thakur
cs.AI
초록
오픈 소스 모델의 발전으로 사용자 지정 데이터셋에서 모델을 학습(또는 파인튜닝)하는 것은 특정 산업이나 오픈 소스 응용 프로그램에 맞춘 솔루션을 개발하는 중요한 부분이 되었습니다. 그러나 서로 다른 유형의 모달리티나 작업에 걸쳐 학습 프로세스를 단순화하는 도구는 없습니다. 저희는 AutoTrain(또는 AutoTrain Advanced)을 소개합니다. 이는 다양한 종류의 작업에 대해 모델을 학습(또는 파인튜닝)하는 데 사용할 수 있는 오픈 소스, 노 코드 도구/라이브러리입니다. 이 작업에는 대규모 언어 모델(LLM) 파인튜닝, 텍스트 분류/회귀, 토큰 분류, 시퀀스-투-시퀀스 작업, 문장 변환기 파인튜닝, 시각 언어 모델(VLM) 파인튜닝, 이미지 분류/회귀, 심지어 탭 데이터에 대한 분류 및 회귀 작업이 포함됩니다. AutoTrain Advanced는 사용자 지정 데이터셋에서 모델을 학습하는 데 대한 최상의 방법론을 제공하는 오픈 소스 라이브러리입니다. 해당 라이브러리는 https://github.com/huggingface/autotrain-advanced에서 사용할 수 있습니다. AutoTrain은 완전 로컬 모드나 클라우드 머신에서 사용할 수 있으며 Hugging Face Hub에서 공유된 수만 개의 모델 및 그 변형과 작동합니다.
English
With the advancements in open-source models, training (or finetuning) models
on custom datasets has become a crucial part of developing solutions which are
tailored to specific industrial or open-source applications. Yet, there is no
single tool which simplifies the process of training across different types of
modalities or tasks. We introduce AutoTrain (aka AutoTrain Advanced) -- an
open-source, no code tool/library which can be used to train (or finetune)
models for different kinds of tasks such as: large language model (LLM)
finetuning, text classification/regression, token classification,
sequence-to-sequence task, finetuning of sentence transformers, visual language
model (VLM) finetuning, image classification/regression and even classification
and regression tasks on tabular data. AutoTrain Advanced is an open-source
library providing best practices for training models on custom datasets. The
library is available at https://github.com/huggingface/autotrain-advanced.
AutoTrain can be used in fully local mode or on cloud machines and works with
tens of thousands of models shared on Hugging Face Hub and their variations.Summary
AI-Generated Summary