DocLayout-YOLO: 다양한 합성 데이터와 전역-지역 적응적 인식을 통해 문서 레이아웃 분석 향상

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

October 16, 2024
저자: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI

초록

문서 레이아웃 분석은 실제 문서 이해 시스템에 있어 중요하나, 속도와 정확도 사이의 어려운 트레이드오프에 직면합니다: 텍스트와 시각적 특징을 활용하는 다중 모달 방법은 더 높은 정확도를 달성하지만 상당한 대기 시간이 발생하며, 시각적 특징에만 의존하는 단일 모달 방법은 빠른 처리 속도를 제공하지만 정확도가 희생됩니다. 이러한 딜레마를 해결하기 위해, 우리는 DocLayout-YOLO를 소개합니다. 이 새로운 접근 방식은 문서 특정 최적화를 통해 정확도를 향상시키면서 속도 장점을 유지합니다. 강력한 문서 사전 훈련을 위해, 우리는 Mesh-candidate BestFit 알고리즘을 소개합니다. 이 알고리즘은 문서 합성을 2차원 바이너리 패킹 문제로 프레임하고, 대규모이며 다양한 DocSynth-300K 데이터셋을 생성합니다. DocSynth-300K 데이터셋에서의 사전 훈련은 다양한 문서 유형에서 세밀 조정 성능을 크게 향상시킵니다. 모델 최적화 측면에서, 우리는 문서 요소의 다중 스케일 변형을 더 잘 처리할 수 있는 Global-to-Local Controllable Receptive Module을 제안합니다. 또한, 다양한 문서 유형에서 성능을 검증하기 위해 DocStructBench라는 복잡하고 도전적인 벤치마크를 소개합니다. 하류 데이터셋에서의 방대한 실험 결과는 DocLayout-YOLO가 속도와 정확도 모두에서 우수함을 입증합니다. 코드, 데이터 및 모델은 https://github.com/opendatalab/DocLayout-YOLO에서 제공됩니다.
English
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.

Summary

AI-Generated Summary

PDF272November 16, 2024