ChatPaper.aiChatPaper

MinerU: 정밀 문서 콘텐츠 추출을 위한 오픈 소스 솔루션

MinerU: An Open-Source Solution for Precise Document Content Extraction

September 27, 2024
저자: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI

초록

문서 내용 분석은 컴퓨터 비전에서 중요한 연구 분야입니다. OCR, 레이아웃 감지, 수식 인식과 같은 방법들의 중요한 발전에도 불구하고, 다양한 문서 유형과 내용으로 인해 기존 오픈 소스 솔루션이 일관된 고품질 콘텐츠 추출을 제공하는 데 어려움을 겪고 있습니다. 이러한 도전에 대처하기 위해 고정밀 문서 내용 추출을 위한 오픈 소스 솔루션인 MinerU를 제안합니다. MinerU는 다양한 문서로부터 콘텐츠를 효과적으로 추출하기 위해 정교한 PDF-Extract-Kit 모델을 활용하고 최적화된 전처리 및 후처리 규칙을 적용하여 최종 결과물의 정확성을 보장합니다. 실험 결과는 MinerU가 다양한 문서 유형에서 일관되게 높은 성능을 달성하며 콘텐츠 추출의 품질과 일관성을 크게 향상시킨다는 것을 입증합니다. MinerU 오픈 소스 프로젝트는 https://github.com/opendatalab/MinerU에서 이용할 수 있습니다.
English
Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

Summary

AI-Generated Summary

PDF284November 16, 2024