EgoNormia: Бенчмаркинг понимания физических социальных норм

Аннотация

Человеческая деятельность регулируется нормами. При совершении действий в реальном мире люди не только следуют нормам, но и учитывают компромиссы между различными нормами. Однако машины часто обучаются без явного контроля за пониманием и рассуждением о нормах, особенно когда нормы основаны на физическом и социальном контексте. Для улучшения и оценки способности к нормативному рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), мы представляем EgoNormia |epsilon|, состоящий из 1,853 эгоцентричных видео человеческих взаимодействий, каждое из которых содержит два связанных вопроса, оценивающих как предсказание, так и обоснование нормативных действий. Нормативные действия охватывают семь категорий: безопасность, приватность, проксемика, вежливость, сотрудничество, координация/проактивность и коммуникация/понятность. Для создания этого набора данных в масштабе мы предлагаем новый подход, включающий выборку видео, автоматическую генерацию ответов, фильтрацию и проверку людьми. Наша работа демонстрирует, что современные модели VLMs не обладают устойчивым пониманием норм, достигая максимум 45% на EgoNormia (по сравнению с человеческим эталоном в 92%). Анализ производительности по каждому измерению подчеркивает значительные риски в области безопасности, приватности, а также недостаток способности к сотрудничеству и коммуникации при применении к реальным агентам. Мы также показываем, что с помощью метода генерации на основе поиска возможно использовать EgoNormia для улучшения нормативного рассуждения в VLMs.

English

Human activity is moderated by norms. When performing actions in the real world, humans not only follow norms, but also consider the trade-off between different norms However, machines are often trained without explicit supervision on norm understanding and reasoning, especially when the norms are grounded in a physical and social context. To improve and evaluate the normative reasoning capability of vision-language models (VLMs), we present EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human interactions, each of which has two related questions evaluating both the prediction and justification of normative actions. The normative actions encompass seven categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline leveraging video sampling, automatic answer generation, filtering, and human validation. Our work demonstrates that current state-of-the-art vision-language models lack robust norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench of 92%). Our analysis of performance in each dimension highlights the significant risks of safety, privacy, and the lack of collaboration and communication capability when applied to real-world agents. We additionally show that through a retrieval-based generation method, it is possible to use EgoNomia to enhance normative reasoning in VLMs.

EgoNormia: Бенчмаркинг понимания физических социальных норм

EgoNormia: Benchmarking Physical Social Norm Understanding

Аннотация

Summary

Support