협력적 인스턴스 탐색: 에이전트 자체 대화를 활용하여 사용자 입력 최소화하기
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input
December 2, 2024
저자: Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang
cs.AI
초록
기존의 실체화된 인스턴스 목표 탐색 작업은 자연어에 의해 주도되며, 실제 세계에서는 인간 지시사항이 간결하고 모호할 수 있기 때문에 탐색 이전에 인간 사용자가 완전하고 미묘한 인스턴스 설명을 제공한다고 가정합니다. 이 간극을 메우기 위해, 우리는 동적 에이전트-인간 상호작용을 통해 탐색 중에 대상 인스턴스에 대한 불확실성을 적극적으로 해소하기 위한 새로운 작업인 협력적 인스턴스 탐색 (CoIN)을 제안합니다. CoIN에 대응하기 위해, 우리는 Vision Language Models (VLMs)의 지각 능력과 Large Language Models (LLMs)의 능력을 활용하는 협력자-사용자 상호작용과 불확실성 인식 (AIUTA)이라는 새로운 방법을 제안합니다. 먼저, 객체 감지 후 Self-Questioner 모델이 자체 대화를 시작하여 완전하고 정확한 관찰 설명을 얻으며, 새로운 불확실성 추정 기술이 부정확한 VLM 지각을 완화합니다. 그런 다음, 상호작용 트리거 모듈은 사용자에게 질문할지, 탐색을 계속할지 또는 중단할지를 결정하여 사용자 입력을 최소화합니다. 평가를 위해, 실제 및 시뮬레이션된 인간을 모두 지원하는 CoIN-Bench를 소개합니다. AIUTA는 최첨단 방법에 대비하여 인스턴스 탐색에서 경쟁력 있는 성능을 달성하며, 사용자 입력을 처리하는 데 큰 유연성을 보여줍니다.
English
Existing embodied instance goal navigation tasks, driven by natural language,
assume human users to provide complete and nuanced instance descriptions prior
to the navigation, which can be impractical in the real world as human
instructions might be brief and ambiguous. To bridge this gap, we propose a new
task, Collaborative Instance Navigation (CoIN), with dynamic agent-human
interaction during navigation to actively resolve uncertainties about the
target instance in natural, template-free, open-ended dialogues. To address
CoIN, we propose a novel method, Agent-user Interaction with UncerTainty
Awareness (AIUTA), leveraging the perception capability of Vision Language
Models (VLMs) and the capability of Large Language Models (LLMs). First, upon
object detection, a Self-Questioner model initiates a self-dialogue to obtain a
complete and accurate observation description, while a novel uncertainty
estimation technique mitigates inaccurate VLM perception. Then, an Interaction
Trigger module determines whether to ask a question to the user, continue or
halt navigation, minimizing user input. For evaluation, we introduce
CoIN-Bench, a benchmark supporting both real and simulated humans. AIUTA
achieves competitive performance in instance navigation against
state-of-the-art methods, demonstrating great flexibility in handling user
inputs.Summary
AI-Generated Summary