HAIC: Улучшение понимания и генерации человеческих действий с помощью более качественных подписей для мультимодальных больших языковых моделей

Аннотация

Современные мультимодальные большие языковые модели (MLLMs) достигли значительного прогресса в понимании видео. Однако их производительность на видео, содержащих действия людей, по-прежнему ограничена из-за недостатка качественных данных. Для решения этой проблемы мы представляем двухэтапный процесс аннотирования данных. Сначала мы разрабатываем стратегии для сбора видео с четко выраженными действиями людей из Интернета. Затем видео аннотируются в стандартизированном формате описания, который использует атрибуты человека для идентификации индивидуумов и хронологически детализирует их действия и взаимодействия. С помощью этого процесса мы создали два набора данных: HAICTrain и HAICBench. HAICTrain включает 126 тысяч пар видео-описание, сгенерированных моделью Gemini-Pro и проверенных для целей обучения. В то же время HAICBench содержит 500 вручную аннотированных пар видео-описание и 1400 пар вопрос-ответ для всесторонней оценки понимания действий человека. Экспериментальные результаты показывают, что обучение на HAICTrain не только значительно улучшает способности к пониманию действий человека на 4 тестовых наборах, но также может улучшить результаты генерации видео из текста. Оба набора данных, HAICTrain и HAICBench, доступны по адресу https://huggingface.co/datasets/KuaishouHAIC/HAIC.

English

Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

HAIC: Улучшение понимания и генерации человеческих действий с помощью более качественных подписей для мультимодальных больших языковых моделей

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

Аннотация

Summary

Support