EgoNormia: Бенчмаркинг понимания физических социальных норм
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Авторы: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Аннотация
Человеческая деятельность регулируется нормами. При совершении действий в реальном мире люди не только следуют нормам, но и учитывают компромиссы между различными нормами. Однако машины часто обучаются без явного контроля за пониманием и рассуждением о нормах, особенно когда нормы основаны на физическом и социальном контексте. Для улучшения и оценки способности к нормативному рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), мы представляем EgoNormia |epsilon|, состоящий из 1,853 эгоцентричных видео человеческих взаимодействий, каждое из которых содержит два связанных вопроса, оценивающих как предсказание, так и обоснование нормативных действий. Нормативные действия охватывают семь категорий: безопасность, приватность, проксемика, вежливость, сотрудничество, координация/проактивность и коммуникация/понятность. Для создания этого набора данных в масштабе мы предлагаем новый подход, включающий выборку видео, автоматическую генерацию ответов, фильтрацию и проверку людьми. Наша работа демонстрирует, что современные модели VLMs не обладают устойчивым пониманием норм, достигая максимум 45% на EgoNormia (по сравнению с человеческим эталоном в 92%). Анализ производительности по каждому измерению подчеркивает значительные риски в области безопасности, приватности, а также недостаток способности к сотрудничеству и коммуникации при применении к реальным агентам. Мы также показываем, что с помощью метода генерации на основе поиска возможно использовать EgoNormia для улучшения нормативного рассуждения в VLMs.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary