AutoTrain : Entraînement sans code pour des modèles de pointe
AutoTrain: No-code training for state-of-the-art models
October 21, 2024
Auteurs: Abhishek Thakur
cs.AI
Résumé
Avec les progrès des modèles open-source, l'entraînement (ou le fine-tuning) des modèles sur des ensembles de données personnalisés est devenu une partie cruciale du développement de solutions adaptées à des applications industrielles spécifiques ou open-source. Cependant, il n'existe pas d'outil unique qui simplifie le processus d'entraînement sur différents types de modalités ou tâches. Nous présentons AutoTrain (alias AutoTrain Advanced) - un outil/bibliothèque open-source sans code qui peut être utilisé pour entraîner (ou affiner) des modèles pour différents types de tâches telles que : l'affinage de grands modèles de langage (LLM), la classification/régression de texte, la classification de jetons, la tâche de séquence à séquence, l'affinage de transformateurs de phrases, l'affinage de modèles de langage visuel (VLM), la classification/régression d'images et même des tâches de classification et de régression sur des données tabulaires. AutoTrain Advanced est une bibliothèque open-source fournissant les meilleures pratiques pour l'entraînement de modèles sur des ensembles de données personnalisés. La bibliothèque est disponible sur https://github.com/huggingface/autotrain-advanced. AutoTrain peut être utilisé en mode entièrement local ou sur des machines cloud et fonctionne avec des dizaines de milliers de modèles partagés sur Hugging Face Hub et leurs variations.
English
With the advancements in open-source models, training (or finetuning) models
on custom datasets has become a crucial part of developing solutions which are
tailored to specific industrial or open-source applications. Yet, there is no
single tool which simplifies the process of training across different types of
modalities or tasks. We introduce AutoTrain (aka AutoTrain Advanced) -- an
open-source, no code tool/library which can be used to train (or finetune)
models for different kinds of tasks such as: large language model (LLM)
finetuning, text classification/regression, token classification,
sequence-to-sequence task, finetuning of sentence transformers, visual language
model (VLM) finetuning, image classification/regression and even classification
and regression tasks on tabular data. AutoTrain Advanced is an open-source
library providing best practices for training models on custom datasets. The
library is available at https://github.com/huggingface/autotrain-advanced.
AutoTrain can be used in fully local mode or on cloud machines and works with
tens of thousands of models shared on Hugging Face Hub and their variations.Summary
AI-Generated Summary