HAIC: Улучшение понимания и генерации человеческих действий с помощью более качественных подписей для мультимодальных больших языковых моделей
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
February 28, 2025
Авторы: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI
Аннотация
Современные мультимодальные большие языковые модели (MLLMs) достигли значительного прогресса в понимании видео. Однако их производительность на видео, содержащих действия людей, по-прежнему ограничена из-за недостатка качественных данных. Для решения этой проблемы мы представляем двухэтапный процесс аннотирования данных. Сначала мы разрабатываем стратегии для сбора видео с четко выраженными действиями людей из Интернета. Затем видео аннотируются в стандартизированном формате описания, который использует атрибуты человека для идентификации индивидуумов и хронологически детализирует их действия и взаимодействия. С помощью этого процесса мы создали два набора данных: HAICTrain и HAICBench. HAICTrain включает 126 тысяч пар видео-описание, сгенерированных моделью Gemini-Pro и проверенных для целей обучения. В то же время HAICBench содержит 500 вручную аннотированных пар видео-описание и 1400 пар вопрос-ответ для всесторонней оценки понимания действий человека. Экспериментальные результаты показывают, что обучение на HAICTrain не только значительно улучшает способности к пониманию действий человека на 4 тестовых наборах, но также может улучшить результаты генерации видео из текста. Оба набора данных, HAICTrain и HAICBench, доступны по адресу https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in
video understanding. However, their performance on videos involving human
actions is still limited by the lack of high-quality data. To address this, we
introduce a two-stage data annotation pipeline. First, we design strategies to
accumulate videos featuring clear human actions from the Internet. Second,
videos are annotated in a standardized caption format that uses human
attributes to distinguish individuals and chronologically details their actions
and interactions. Through this pipeline, we curate two datasets, namely
HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs
generated by Gemini-Pro and verified for training purposes. Meanwhile,
HAICBench includes 500 manually annotated video-caption pairs and
1,400 QA pairs, for a comprehensive evaluation of human action understanding.
Experimental results demonstrate that training with HAICTrain not only
significantly enhances human understanding abilities across 4 benchmarks, but
can also improve text-to-video generation results. Both the HAICTrain and
HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.Summary
AI-Generated Summary