SynFinTabs: 정보 및 테이블 추출을 위한 합성 금융 테이블 데이터셋
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
December 5, 2024
저자: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI
초록
문서 이미지로부터의 표 추출은 어려운 AI 문제이며, 많은 콘텐츠 도메인에 대한 레이블이 달린 데이터를 구하는 것은 어렵습니다. 기존의 표 추출 데이터셋은 주로 학술 논문이 쉽게 이용 가능하며 그 소스 코드로 인해 과학적인 표에 초점을 맞추고 있습니다. 그러나 과학, 금융 및 기타 도메인에서 발견되는 표 사이에는 상당한 레이아웃 및 활자적 차이가 있습니다. 현재의 데이터셋은 종종 표 내에 포함된 단어와 그 위치가 부족하며, 대신 신뢰할 수 없는 OCR에 의존하여 이러한 특징을 추출하여 현대 기계 학습 모델을 자연어 처리 작업에 대해 훈련시킵니다. 따라서 레이블이 달린 데이터를 얻기 위한 보다 일반적인 방법이 필요합니다. 저희는 SynFinTabs를 제시합니다. 이는 합성 금융 표의 대규모 레이블 데이터셋입니다. 우리의 희망은 이러한 합성 표를 생성하는 저희의 방법이 다른 도메인으로 전이 가능하다는 것입니다. 표 이미지로부터 정보를 추출하는 모델을 훈련시키기 위해 우리의 데이터셋의 효과를 증명하기 위해, 우리는 FinTabQA를 만들었습니다. 이는 추출형 질의응답 작업에 대해 훈련된 대규모 언어 모델입니다. 우리는 실제 금융 표를 사용하여 모델을 테스트하고 최첨단 생성 모델과 비교하며 결과를 논의합니다. 우리는 데이터셋, 모델 및 데이터셋 생성 코드를 공개적으로 제공합니다.
English
Table extraction from document images is a challenging AI problem, and
labelled data for many content domains is difficult to come by. Existing table
extraction datasets often focus on scientific tables due to the vast amount of
academic articles that are readily available, along with their source code.
However, there are significant layout and typographical differences between
tables found across scientific, financial, and other domains. Current datasets
often lack the words, and their positions, contained within the tables, instead
relying on unreliable OCR to extract these features for training modern machine
learning models on natural language processing tasks. Therefore, there is a
need for a more general method of obtaining labelled data. We present
SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our
hope is that our method of generating these synthetic tables is transferable to
other domains. To demonstrate the effectiveness of our dataset in training
models to extract information from table images, we create FinTabQA, a layout
large language model trained on an extractive question-answering task. We test
our model using real-world financial tables and compare it to a
state-of-the-art generative model and discuss the results. We make the dataset,
model, and dataset generation code publicly available.Summary
AI-Generated Summary