Cockatiel: Kombination von synthetischem und menschlich präferenzbasiertem Training für detaillierte Videobeschreibung
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
March 12, 2025
Autoren: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI
Zusammenfassung
Video Detailed Captioning (VDC) ist eine entscheidende Aufgabe für die Brücke zwischen Vision und Sprache, die detaillierte Beschreibungen von komplexen Videoinhalten ermöglicht. In diesem Papier benchmarken wir zunächst umfassend die aktuellen State-of-the-Art-Ansätze und identifizieren systematisch zwei kritische Einschränkungen: eine verzerrte Fähigkeit gegenüber bestimmten Aspekten der Beschriftung und eine Fehlausrichtung mit menschlichen Präferenzen. Um diese Mängel zu beheben, schlagen wir Cockatiel vor, eine neuartige dreistufige Trainingspipeline, die synthetisches und menschlich ausgerichtetes Training kombiniert, um die VDC-Leistung zu verbessern. In der ersten Stufe leiten wir einen Scorer aus einem sorgfältig annotierten Datensatz ab, um synthetische Beschriftungen auszuwählen, die in Bezug auf eine bestimmte feinkörnige Video-Beschriftungs-Ausrichtung und menschliche Präferenzen gut abschneiden, während andere ignoriert werden. Anschließend trainieren wir Cockatiel-13B mit diesem kuratierten Datensatz, um es mit den kombinierten Stärken des Modells und menschlichen Präferenzen zu versehen. Schließlich destillieren wir Cockatiel-8B aus Cockatiel-13B, um die Nutzung zu erleichtern. Umfangreiche quantitative und qualitative Experimente spiegeln die Wirksamkeit unserer Methode wider, da wir nicht nur auf VDCSCORE in einer dimensionsausgewogenen Weise neue State-of-the-Art-Leistungen erzielen, sondern auch führende Alternativen in Bezug auf menschliche Präferenzen mit großem Abstand übertreffen, wie die Ergebnisse der menschlichen Bewertung zeigen.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language
bridging, enabling fine-grained descriptions of complex video content. In this
paper, we first comprehensively benchmark current state-of-the-art approaches
and systematically identified two critical limitations: biased capability
towards specific captioning aspect and misalignment with human preferences. To
address these deficiencies, we propose Cockatiel, a novel three-stage training
pipeline that ensembles synthetic and human-aligned training for improving VDC
performance. In the first stage, we derive a scorer from a meticulously
annotated dataset to select synthetic captions high-performing on certain
fine-grained video-caption alignment and human-preferred while disregarding
others. Then, we train Cockatiel-13B, using this curated dataset to infuse it
with assembled model strengths and human preferences. Finally, we further
distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive
quantitative and qualitative experiments reflect the effectiveness of our
method, as we not only set new state-of-the-art performance on VDCSCORE in a
dimension-balanced way but also surpass leading alternatives on human
preference by a large margin as depicted by the human evaluation results.Summary
AI-Generated Summary