OVO-Bench: Quão Longe Estão Seus Video-LLMs da Compreensão de Vídeos Online do Mundo Real?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Autores: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Resumo
A Consciência Temporal, a capacidade de raciocinar dinamicamente com base no carimbo de data/hora quando uma pergunta é feita, é a distinção chave entre os modelos de LLM de vídeo offline e online. Ao contrário dos modelos offline, que dependem de vídeos completos para análise estática pós-hoc, os modelos online processam fluxos de vídeo de forma incremental e se adaptam dinamicamente às respostas com base no carimbo de data/hora em que a pergunta é feita. Apesar de sua importância, a consciência temporal não foi adequadamente avaliada nos benchmarks existentes. Para preencher essa lacuna, apresentamos o OVO-Bench (Online-VideO-Benchmark), um novo benchmark de vídeo que enfatiza a importância dos carimbos de data/hora para a capacidade avançada de compreensão de vídeo online. O OVO-Bench avalia a capacidade dos LLMs de vídeo de raciocinar e responder a eventos ocorrendo em carimbos de data/hora específicos sob três cenários distintos: (1) Rastreamento retroativo: retroceder a eventos passados para responder à pergunta. (2) Compreensão em tempo real: compreender e responder a eventos conforme acontecem no carimbo de data/hora atual. (3) Resposta ativa para frente: adiar a resposta até que informações futuras suficientes estejam disponíveis para responder à pergunta com precisão. O OVO-Bench é composto por 12 tarefas, apresentando 644 vídeos exclusivos e aproximadamente 2.800 meta-anotações refinadas com carimbos de data/hora precisos, curados por humanos. Combinamos pipelines de geração automatizada com curadoria humana. Com essas amostras de alta qualidade, desenvolvemos ainda um pipeline de avaliação para consultar sistematicamente os LLMs de vídeo ao longo da linha do tempo do vídeo. Avaliações de nove LLMs de vídeo revelam que, apesar dos avanços em benchmarks tradicionais, os modelos atuais enfrentam dificuldades com a compreensão de vídeo online, mostrando uma lacuna significativa em comparação com agentes humanos. Esperamos que o OVO-Bench impulsione o progresso em LLMs de vídeo e inspire pesquisas futuras em raciocínio de vídeo online. Nosso benchmark e código podem ser acessados em https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary