Atla Selene Mini: Een Algemeen Doel Evaluatiemodel

Atla Selene Mini: A General Purpose Evaluation Model

January 27, 2025
Auteurs: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park
cs.AI

Samenvatting

We introduceren Atla Selene Mini, een state-of-the-art klein taalmodel-als-een-beoordelaar (SLMJ). Selene Mini is een algemene evaluator die de beste SLMJ's en GPT-4o-mini overtreft op algemene prestaties over 11 out-of-distribution benchmarks, die absolute scoring, classificatie en pairwise preference taken omvatten. Het is het hoogst scorende 8B generatieve model op RewardBench, waarbij sterke baselines zoals GPT-4o en gespecialiseerde beoordelaars worden overtroffen. Om dit te bereiken, ontwikkelen we een principiële datacuratiestrategie die openbare datasets aanvult met synthetisch gegenereerde kritieken en zorgt voor hoge kwaliteit door filtering en datasetablaties. We trainen ons model met een gecombineerd directe voorkeurs-optimalisatie (DPO) en begeleid fijnafstemmings (SFT) verlies, en produceren een zeer aanpasbare evaluator die uitblinkt in real-world scenario's. Selene Mini toont aanzienlijk verbeterde zero-shot overeenstemming met menselijke expertevaluaties op financiële en medische branche datasets. Het is ook robuust tegen variaties in promptformat. Voorlopige resultaten geven aan dat Selene Mini de best scorende evaluator is in een live, door de gemeenschap gedreven Judge Arena. We publiceren de modelgewichten op HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) en Ollama om brede gemeenschapsadoptie aan te moedigen.
English
We introduce Atla Selene Mini, a state-of-the-art small language model-as-a-judge (SLMJ). Selene Mini is a general-purpose evaluator that outperforms the best SLMJs and GPT-4o-mini on overall performance across 11 out-of-distribution benchmarks, spanning absolute scoring, classification, and pairwise preference tasks. It is the highest-scoring 8B generative model on RewardBench, surpassing strong baselines like GPT-4o and specialized judges. To achieve this, we develop a principled data curation strategy that augments public datasets with synthetically generated critiques and ensures high quality through filtering and dataset ablations. We train our model on a combined direct preference optimization (DPO) and supervised fine-tuning (SFT) loss, and produce a highly promptable evaluator that excels in real-world scenarios. Selene Mini shows dramatically improved zero-shot agreement with human expert evaluations on financial and medical industry datasets. It is also robust to variations in prompt format. Preliminary results indicate that Selene Mini is the top-ranking evaluator in a live, community-driven Judge Arena. We release the model weights on HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) and Ollama to encourage widespread community adoption.

Summary

AI-Generated Summary

PDF254January 30, 2025