Minimale Aanpassing om Lange Uitvoer van LLM's te Ontgrendelen met Hoogwaardige Gegevens als Sleutel
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Auteurs: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Samenvatting
Naarmate grote taalmodellen zich snel ontwikkelen om langere context te ondersteunen, is er een opmerkelijk verschil in hun vermogen om output van grotere lengte te genereren. Recente studies suggereren dat de voornaamste oorzaak van deze onbalans kan voortkomen uit het gebrek aan gegevens met lange output tijdens aligneringstraining. In het licht van deze observatie worden pogingen ondernomen om foundation modellen opnieuw uit te lijnen met gegevens die het hiaat vullen, wat resulteert in modellen die in staat zijn om uitgebreide output te genereren wanneer ze worden geïnstrueerd. In dit artikel onderzoeken we de impact van datakwaliteit bij het afstemmen van een model voor lange output, en de mogelijkheid om dit te doen vanuit de startpunten van mens-gealigneerde (instructie- of chat) modellen. Met zorgvuldige gegevenscuratie tonen we aan dat het mogelijk is om vergelijkbare prestatieverbeteringen te behalen in onze afgestemde modellen, met slechts een klein deel van de trainingsgegevens en berekeningen. Bovendien beoordelen we de generaliseerbaarheid van dergelijke benaderingen door onze afstemmingsrecepten toe te passen op verschillende modellen. Onze bevindingen suggereren dat, hoewel de capaciteiten voor het genereren van lange output variëren tussen verschillende modellen out-of-the-box, onze benadering om ze af te stemmen met hoogwaardige gegevens met weinig berekeningen, consequent opmerkelijke verbeteringen oplevert bij alle modellen waarop we hebben geëxperimenteerd. We hebben ons samengestelde dataset voor het afstemmen van de schrijfcapaciteit op lange termijn openbaar gemaakt, evenals de implementaties van modelafstemming en evaluatie, en de fijnafgestemde modellen, die allemaal openlijk toegankelijk zijn.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary