ChatPaper.aiChatPaper

OmniDocBench: 포괄적 주석을 사용한 다양한 PDF 문서 구문 분석의 벤치마킹

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

December 10, 2024
저자: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI

초록

컴퓨터 비전에서 문서 내용 추출은 특히 대규모 언어 모델 (LLMs)과 검색 증강 생성 (RAG) 기술의 고품질 데이터 요구를 충족시키기 위해 중요합니다. 그러나 현재의 문서 구문 분석 방법은 다양성과 포괄적인 평가 측면에서 중요한 제한사항을 가지고 있습니다. 이러한 도전에 대처하기 위해 우리는 자동 문서 내용 추출을 발전시키기 위해 설계된 혁신적인 다중 소스 벤치마크인 OmniDocBench를 소개합니다. OmniDocBench에는 학술 논문, 교과서, 슬라이드 등 다양한 문서 유형을 포함한 9가지 다양한 문서 유형으로 구성된 정교하게 선별된 고품질 평가 데이터셋이 포함되어 있습니다. 우리의 벤치마크는 19가지 레이아웃 범주 라벨과 14가지 속성 라벨을 갖춘 유연하고 포괄적인 평가 프레임워크를 제공하여 전체 데이터셋, 개별 모듈 또는 특정 데이터 유형을 효율적으로 평가할 수 있습니다. OmniDocBench를 활용하여 우리는 기존의 모듈식 파이프라인과 멀티모달 엔드 투 엔드 방법을 철저히 비교 분석하여 문서 다양성을 다루는 능력과 공정한 평가를 보여줍니다. OmniDocBench는 문서 내용 추출 분야를 위한 견고하고 다양하며 공정한 평가 기준을 수립하여 미래 발전에 대한 중요한 통찰을 제공하고 문서 구문 분석 기술의 발전을 촉진합니다. 코드와 데이터셋은 https://github.com/opendatalab/OmniDocBench에서 제공됩니다.
English
Document content extraction is crucial in computer vision, especially for meeting the high-quality data needs of large language models (LLMs) and retrieval-augmented generation (RAG) technologies. However, current document parsing methods suffer from significant limitations in terms of diversity and comprehensive evaluation. To address these challenges, we introduce OmniDocBench, a novel multi-source benchmark designed to advance automated document content extraction. OmniDocBench includes a meticulously curated and annotated high-quality evaluation dataset comprising nine diverse document types, such as academic papers, textbooks, slides, among others. Our benchmark provides a flexible and comprehensive evaluation framework with 19 layout category labels and 14 attribute labels, enabling multi-level assessments across entire datasets, individual modules, or specific data types. Using OmniDocBench, we perform an exhaustive comparative analysis of existing modular pipelines and multimodal end-to-end methods, highlighting their limitations in handling document diversity and ensuring fair evaluation. OmniDocBench establishes a robust, diverse, and fair evaluation standard for the document content extraction field, offering crucial insights for future advancements and fostering the development of document parsing technologies. The codes and dataset is available in https://github.com/opendatalab/OmniDocBench.

Summary

AI-Generated Summary

PDF111December 11, 2024