EgoLife: В направлении эгоцентричного помощника для повседневной жизни
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Авторы: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Аннотация
Мы представляем EgoLife — проект по разработке эгоцентричного помощника для повседневной жизни, который сопровождает пользователя и повышает личную эффективность с помощью ИИ-управляемых носимых очков. Чтобы заложить основу для этого помощника, мы провели всестороннее исследование по сбору данных, в ходе которого шесть участников жили вместе в течение одной недели, непрерывно записывая свои повседневные действия — включая обсуждения, покупки, приготовление пищи, общение и развлечения — с использованием ИИ-очков для многомодальной эгоцентричной видеозаписи, а также синхронизированных видеозаписей от третьего лица. В результате был создан набор данных EgoLife Dataset — всеобъемлющий 300-часовой эгоцентричный, межличностный, многовидовой и многомодальный набор данных о повседневной жизни с интенсивной аннотацией. Используя этот набор данных, мы представляем EgoLifeQA — набор задач по ответам на вопросы с длинным контекстом, ориентированных на повседневную жизнь, которые призваны оказывать значимую помощь в повседневной жизни, решая практические вопросы, такие как напоминание о прошлых событиях, мониторинг привычек здоровья и предоставление персонализированных рекомендаций. Для решения ключевых технических задач, включающих (1) разработку устойчивых визуально-аудио моделей для эгоцентричных данных, (2) распознавание личности и (3) обеспечение ответов на вопросы с длинным контекстом на основе обширной временной информации, мы представляем EgoButler — интегрированную систему, состоящую из EgoGPT и EgoRAG. EgoGPT — это омни-модальная модель, обученная на эгоцентричных наборах данных, демонстрирующая передовые результаты в понимании эгоцентричного видео. EgoRAG — это компонент на основе поиска, поддерживающий ответы на вопросы с ультрадлинным контекстом. Наши экспериментальные исследования подтверждают их рабочие механизмы и выявляют ключевые факторы и узкие места, направляя будущие улучшения. Публикуя наши наборы данных, модели и эталонные тесты, мы стремимся стимулировать дальнейшие исследования в области эгоцентричных ИИ-помощников.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary