문서 구문 분석 공개: 구조화된 정보 추출을 위한 기술, 도전과 전망
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
October 28, 2024
저자: Qintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
cs.AI
초록
문서 구문 분석은 계약서, 학술 논문 및 송장과 같은 비구조화 및 반구조화된 문서를 구조화된 기계 판독 가능한 데이터로 변환하는 데 중요합니다. 문서 구문 분석은 비구조화 입력에서 신뢰할 수 있는 구조화된 데이터를 추출하여 다양한 응용 프로그램에 많은 편의성을 제공합니다. 특히 최근 대형 언어 모델의 성과로 인해 문서 구문 분석은 지식 베이스 구축 및 훈련 데이터 생성 모두에서 필수적인 역할을 합니다. 본 조사는 현재의 문서 구문 분석 상태에 대한 포괄적인 검토를 제공하며, 모듈식 파이프라인 시스템부터 대규모 비전-언어 모델에 의해 주도되는 end-to-end 모델까지 주요 방법론을 다룹니다. 레이아웃 감지, 내용 추출(텍스트, 표 및 수학식 포함), 그리고 다중 모달 데이터 통합과 같은 핵심 구성 요소가 자세히 살펴보입니다. 또한, 이 논문은 복잡한 레이아웃 처리, 여러 모듈 통합 및 고밀도 텍스트 인식에 직면한 모듈식 문서 구문 분석 시스템 및 비전-언어 모델이 마주한 도전에 대해 논의합니다. 더 크고 다양한 데이터셋을 개발하는 중요성을 강조하고, 미래 연구 방향을 개요합니다.
English
Document parsing is essential for converting unstructured and semi-structured
documents-such as contracts, academic papers, and invoices-into structured,
machine-readable data. Document parsing extract reliable structured data from
unstructured inputs, providing huge convenience for numerous applications.
Especially with recent achievements in Large Language Models, document parsing
plays an indispensable role in both knowledge base construction and training
data generation. This survey presents a comprehensive review of the current
state of document parsing, covering key methodologies, from modular pipeline
systems to end-to-end models driven by large vision-language models. Core
components such as layout detection, content extraction (including text,
tables, and mathematical expressions), and multi-modal data integration are
examined in detail. Additionally, this paper discusses the challenges faced by
modular document parsing systems and vision-language models in handling complex
layouts, integrating multiple modules, and recognizing high-density text. It
emphasizes the importance of developing larger and more diverse datasets and
outlines future research directions.Summary
AI-Generated Summary