ChatPaper.aiChatPaper

Molmo와 PixMo: 최첨단 다중 모달 모델을 위한 오픈 가중치와 오픈 데이터

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

September 25, 2024
저자: Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi
cs.AI

초록

오늘날 가장 선진한 다중 모달 모델들은 여전히 독점적입니다. 가장 강력한 오픈 가중치 모델들은 좋은 성능을 달성하기 위해 독점적인 VLM으로부터의 합성 데이터에 크게 의존하며, 이를 효과적으로 폐쇄된 모델들을 오픈으로 변환합니다. 결과적으로, 커뮤니티는 여전히 처음부터 성능이 우수한 VLM을 구축하는 방법에 대한 기본적인 지식이 부족합니다. 저희는 Molmo를 제시합니다. 이는 해당 개방성 클래스에서 최첨단인 VLM의 새로운 패밀리입니다. 저희의 주요 혁신은 음성 기반 설명을 사용하여 인간 주석자들에 의해 완전히 수집된 혁신적이고 매우 상세한 이미지 캡션 데이터셋입니다. 다양한 사용자 상호작용을 가능하게 하기 위해, 우리는 또한 인-더-와일드 Q&A 및 혁신적인 2D 포인팅 데이터를 포함한 다양한 데이터셋 혼합을 소개합니다. 저희 방법의 성공은 모델 아키텍처 세부 사항에 대한 신중한 선택, 잘 조정된 훈련 파이프라인, 그리고 가장 중요한 것은 새롭게 수집된 데이터셋의 품질에 의존합니다. 이 모든 것들은 공개될 것입니다. Molmo 패밀리 내 최고 수준의 72B 모델은 오픈 가중치 및 데이터 모델 클래스에서 다른 모델들을 능가할 뿐만 아니라 GPT-4o, Claude 3.5, Gemini 1.5와 같은 독점 시스템들과 학술적 벤치마크 및 인간 평가에서 유리한 비교를 제공합니다. 우리는 곧 모든 모델 가중치, 캡션 및 세밀한 조정 데이터, 그리고 소스 코드를 공개할 예정입니다. 일부 모델 가중치, 추론 코드, 그리고 데모는 https://molmo.allenai.org에서 이용 가능합니다.
English
Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org.

Summary

AI-Generated Summary

PDF1144November 16, 2024