Éclair -- 문서의 내용과 레이아웃을 통합된 읽기 순서로 추출하기
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
저자: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
초록
광학 문자 인식 (OCR) 기술은 문서 이미지에서 텍스트를 추출하여 효율적인 디지털화와 데이터 검색을 용이하게 합니다. 그러나 복잡한 문서를 처리할 때는 단순히 텍스트를 추출하는 것만으로는 충분하지 않습니다. 이러한 문서를 완전히 이해하기 위해서는 형식, 수식, 표 및 여러 페이지에 걸쳐 여러 블록과 열의 읽기 순서뿐만 아니라 각주와 이미지 캡션과 같은 요소를 감지하기 위한 의미론적 정보를 이해해야 합니다. 이러한 포괄적인 이해는 검색, 문서 질문 응답, 대규모 언어 모델 (LLM) 및 시각 언어 모델 (VLM)의 교육을 위한 데이터 정리와 같은 하류 작업에 중요합니다. 이에 대응하여 우리는 다양한 문서 유형을 처리하도록 명시적으로 설계된 일반 목적의 텍스트 추출 도구 'Eclair'를 소개합니다. 이미지를 제공하면 'Eclair'는 읽기 순서대로 서식이 있는 텍스트를 추출하고 해당 바운딩 박스와 해당 의미론적 클래스를 함께 제공할 수 있습니다. 이러한 혁신적인 기능을 철저히 평가하기 위해 문서 수준 OCR 및 의미론적 분류를 위한 다양한 인간 주석이 달린 벤치마크를 소개합니다. 'Eclair'은 이 벤치마크에서 최첨단 정확도를 달성하며 주요 지표에서 다른 방법을 능가합니다. 게다가 'Eclair'을 확립된 벤치마크에서 평가하여 여러 평가 기준에 걸쳐 그 다재다능함과 강점을 시연합니다.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary