BigDocs: 문서 및 코드 작업에 대한 다중 모달 모델 훈련용으로 개방되고 허가가 부여된 데이터셋
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
December 5, 2024
저자: Juan Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats Leon Richter, Saverio Vadacchino, Shubbam Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Noah Bolger, Kurt MacDonald, Simon Fauvel, Sathwik Tejaswi, Srinivas Sunkara, Joao Monteiro, Krishnamurthy DJ Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharagani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam Laradji, Spandanna Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar
cs.AI
초록
다중 모달 AI는 영수증 처리, 워크플로 이해, 문서에서 데이터 추출, 보고서 요약과 같은 문서 이해 작업을 혁신적으로 향상시킬 수 있는 잠재력을 갖고 있습니다. 긴 구조화된 출력이 필요한 코드 생성 작업도 다중 모달로 향상될 수 있습니다. 그럼에도 불구하고 상용 응용 프로그램에서의 사용은 종종 훈련 데이터에 대한 제한된 접근과 제한적인 라이선싱으로 인해 제한됩니다. 이는 개방적 접근을 방해합니다. 이러한 한계를 극복하기 위해, 우리는 30가지 작업을 포함한 750만 개의 다중 모달 문서로 구성된 고품질의 오픈 액세스 데이터셋인 BigDocs-7.5M을 소개합니다. 우리는 고품질이며 라이선스 허용 데이터임을 보장하기 위해 효율적인 데이터 선별 프로세스를 사용합니다. 우리의 프로세스는 필터링 규칙, 추적 가능한 메타데이터, 그리고 신중한 콘텐츠 분석을 통해 책임, 책임성, 그리고 투명성을 강조합니다. 게다가, 우리는 GUI 상의 추론과 이미지로부터의 코드 생성을 포함하는 실제 사용 사례를 반영하는 데이터셋을 생성하는 10가지 새로운 작업을 포함하는 벤치마크 스위트인 BigDocs-Bench를 소개합니다. 우리의 실험 결과는 BigDocs-Bench로 훈련하는 것이 문서 추론 및 구조화된 출력 작업에서 GPT-4o보다 평균 성능을 최대 25.8% 향상시킨다는 것을 보여줍니다. 마지막으로, 인간 평가는 BigDocs로 훈련된 모델의 출력을 GPT-4o보다 선호한다는 것을 보여주었습니다. 이는 BigDocs가 학계와 오픈 소스 커뮤니티 모두가 다중 모달 능력과 문서 추론을 향상시키기 위해 AI 도구를 활용하고 개선하는 데 도움이 될 수 있다는 것을 시사합니다. 해당 프로젝트는 https://bigdocs.github.io 에서 호스팅됩니다.
English
Multimodal AI has the potential to significantly enhance
document-understanding tasks, such as processing receipts, understanding
workflows, extracting data from documents, and summarizing reports. Code
generation tasks that require long-structured outputs can also be enhanced by
multimodality. Despite this, their use in commercial applications is often
limited due to limited access to training data and restrictive licensing, which
hinders open access. To address these limitations, we introduce BigDocs-7.5M, a
high-quality, open-access dataset comprising 7.5 million multimodal documents
across 30 tasks. We use an efficient data curation process to ensure our data
is high-quality and license-permissive. Our process emphasizes accountability,
responsibility, and transparency through filtering rules, traceable metadata,
and careful content analysis. Additionally, we introduce BigDocs-Bench, a
benchmark suite with 10 novel tasks where we create datasets that reflect
real-world use cases involving reasoning over Graphical User Interfaces (GUI)
and code generation from images. Our experiments show that training with
BigDocs-Bench improves average performance up to 25.8% over closed-source
GPT-4o in document reasoning and structured output tasks such as
Screenshot2HTML or Image2Latex generation. Finally, human evaluations showed a
preference for outputs from models trained on BigDocs over GPT-4o. This
suggests that BigDocs can help both academics and the open-source community
utilize and improve AI tools to enhance multimodal capabilities and document
reasoning. The project is hosted at https://bigdocs.github.io .Summary
AI-Generated Summary