DocLayout-YOLO: Het verbeteren van Documentindelingsanalyse door middel van Diverse Synthetische Gegevens en Globaal-naar-Lokaal Aanpasbare Perceptie

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

October 16, 2024
Auteurs: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI

Samenvatting

Document Layout Analysis is cruciaal voor documentbegripssystemen in de echte wereld, maar het staat voor een uitdagend compromis tussen snelheid en nauwkeurigheid: multimodale methoden die zowel tekst- als visuele kenmerken benutten behalen een hogere nauwkeurigheid, maar hebben te maken met aanzienlijke latentie, terwijl unimodale methoden die uitsluitend vertrouwen op visuele kenmerken snellere verwerkingssnelheden bieden ten koste van nauwkeurigheid. Om dit dilemma aan te pakken, introduceren we DocLayout-YOLO, een nieuw benadering die de nauwkeurigheid verbetert terwijl de snelheidsvoordelen behouden blijven door documentspecifieke optimalisaties in zowel pre-training als modelontwerp. Voor robuuste documentpre-training introduceren we het Mesh-candidate BestFit-algoritme, dat documentsynthese kaderstelt als een tweedimensionaal bin-packingprobleem, resulterend in het genereren van de grootschalige, diverse DocSynth-300K dataset. Pre-training op de resulterende DocSynth-300K dataset verbetert aanzienlijk de fine-tuning prestaties over verschillende soorten documenten. Wat betreft modeloptimalisatie stellen we een Global-to-Local Controllable Receptive Module voor die beter in staat is om multi-schaal variaties van documentelementen te verwerken. Bovendien introduceren we een complexe en uitdagende benchmark genaamd DocStructBench om de prestaties over verschillende soorten documenten te valideren. Uitgebreide experimenten op downstream datasets tonen aan dat DocLayout-YOLO uitblinkt in zowel snelheid als nauwkeurigheid. Code, data en modellen zijn beschikbaar op https://github.com/opendatalab/DocLayout-YOLO.
English
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.

Summary

AI-Generated Summary

PDF272November 16, 2024