Atla Selene Mini: Een Algemeen Doel Evaluatiemodel
Atla Selene Mini: A General Purpose Evaluation Model
January 27, 2025
Auteurs: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI
Samenvatting
We introduceren Atla Selene Mini, een state-of-the-art klein taalmodel-als-een-beoordelaar (SLMJ). Selene Mini is een algemene evaluator die de beste SLMJ's en GPT-4o-mini overtreft op algemene prestaties over 11 out-of-distribution benchmarks, die absolute scoring, classificatie en pairwise preference taken omvatten. Het is het hoogst scorende 8B generatieve model op RewardBench, waarbij sterke baselines zoals GPT-4o en gespecialiseerde beoordelaars worden overtroffen. Om dit te bereiken, ontwikkelen we een principiële datacuratiestrategie die openbare datasets aanvult met synthetisch gegenereerde kritieken en zorgt voor hoge kwaliteit door filtering en datasetablaties. We trainen ons model met een gecombineerd directe voorkeurs-optimalisatie (DPO) en begeleid fijnafstemmings (SFT) verlies, en produceren een zeer aanpasbare evaluator die uitblinkt in real-world scenario's. Selene Mini toont aanzienlijk verbeterde zero-shot overeenstemming met menselijke expertevaluaties op financiële en medische branche datasets. Het is ook robuust tegen variaties in promptformat. Voorlopige resultaten geven aan dat Selene Mini de best scorende evaluator is in een live, door de gemeenschap gedreven Judge Arena. We publiceren de modelgewichten op HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) en Ollama om brede gemeenschapsadoptie aan te moedigen.
English
We introduce Atla Selene Mini, a state-of-the-art small language
model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that
outperforms the best SLMJs and GPT-4o-mini on overall performance across 11
out-of-distribution benchmarks, spanning absolute scoring, classification, and
pairwise preference tasks. It is the highest-scoring 8B generative model on
RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To
achieve this, we develop a principled data curation strategy that augments
public datasets with synthetically generated critiques and ensures high quality
through filtering and dataset ablations. We train our model on a combined
direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and
produce a highly promptable evaluator that excels in real-world scenarios.
Selene Mini shows dramatically improved zero-shot agreement with human expert
evaluations on financial and medical industry datasets. It is also robust to
variations in prompt format. Preliminary results indicate that Selene Mini is
the top-ranking evaluator in a live, community-driven Judge Arena. We release
the model weights on HuggingFace
(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage
widespread community adoption.Summary
AI-Generated Summary