ChatPaper.aiChatPaper

EgoSpeak: 야생 환경에서 이고센트릭 대화형 에이전트의 발화 시점 학습

EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild

February 17, 2025
저자: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu
cs.AI

초록

실제 환경에서 언제 발화를 시작할지 예측하는 것은 대화형 에이전트에게 여전히 근본적인 과제로 남아 있습니다. 우리는 에고센트릭 스트리밍 비디오에서 실시간 발화 시작 예측을 위한 새로운 프레임워크인 EgoSpeak을 소개합니다. EgoSpeak은 화자의 1인칭 시점에서 대화를 모델링함으로써, 대화형 에이전트가 지속적으로 주변 환경을 관찰하고 언제 말할지 동적으로 결정해야 하는 인간과 유사한 상호작용에 맞춰 설계되었습니다. 우리의 접근 방식은 단순화된 실험 설정과 복잡한 자연스러운 대화 간의 간극을 메우기 위해 네 가지 핵심 기능을 통합합니다: (1) 1인칭 시점, (2) RGB 처리, (3) 온라인 처리, (4) 트리밍되지 않은 비디오 처리. 또한, 대규모 사전 학습을 위한 리소스로 YouTube에서 수집한 다양한 실제 대화 비디오 컬렉션인 YT-Conversation을 제시합니다. EasyCom과 Ego4D에서의 실험 결과, EgoSpeak은 실시간에서 무작위 및 침묵 기반 베이스라인을 능가하는 성능을 보여줍니다. 우리의 결과는 또한 언제 말할지 효과적으로 결정하는 데 있어 멀티모달 입력과 컨텍스트 길이의 중요성을 강조합니다.
English
Predicting when to initiate speech in real-world environments remains a fundamental challenge for conversational agents. We introduce EgoSpeak, a novel framework for real-time speech initiation prediction in egocentric streaming video. By modeling the conversation from the speaker's first-person viewpoint, EgoSpeak is tailored for human-like interactions in which a conversational agent must continuously observe its environment and dynamically decide when to talk. Our approach bridges the gap between simplified experimental setups and complex natural conversations by integrating four key capabilities: (1) first-person perspective, (2) RGB processing, (3) online processing, and (4) untrimmed video processing. We also present YT-Conversation, a diverse collection of in-the-wild conversational videos from YouTube, as a resource for large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that EgoSpeak outperforms random and silence-based baselines in real time. Our results also highlight the importance of multimodal input and context length in effectively deciding when to speak.

Summary

AI-Generated Summary

PDF62February 24, 2025