SynFinTabs: un dataset di tabelle finanziarie sintetiche per l'estrazione di informazioni e tabelle
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
December 5, 2024
Autori: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI
Abstract
L'estrazione delle tabelle dalle immagini dei documenti è un problema complesso nell'ambito dell'IA, e i dati etichettati per molti domini di contenuto sono difficili da reperire. I dataset esistenti sull'estrazione delle tabelle si concentrano spesso su tabelle scientifiche a causa della vasta quantità di articoli accademici facilmente disponibili, insieme al loro codice sorgente. Tuttavia, esistono significative differenze di layout e tipografiche tra le tabelle presenti nei settori scientifico, finanziario e in altri settori. I dataset attuali spesso non contengono le parole e le loro posizioni all'interno delle tabelle, affidandosi invece a un OCR non affidabile per estrarre queste caratteristiche per addestrare i moderni modelli di machine learning su compiti di elaborazione del linguaggio naturale. Pertanto, c'è bisogno di un metodo più generale per ottenere dati etichettati. Presentiamo SynFinTabs, un dataset ampio e etichettato di tabelle finanziarie sintetiche. Speriamo che il nostro metodo di generazione di queste tabelle sintetiche sia trasferibile ad altri settori. Per dimostrare l'efficacia del nostro dataset nell'addestrare modelli ad estrarre informazioni dalle immagini delle tabelle, creiamo FinTabQA, un grande modello linguistico di layout addestrato su un compito di domanda-risposta estrattiva. Testiamo il nostro modello utilizzando tabelle finanziarie reali e lo confrontiamo con un modello generativo all'avanguardia e discutiamo i risultati. Mettiamo a disposizione pubblica il dataset, il modello e il codice di generazione del dataset.
English
Table extraction from document images is a challenging AI problem, and
labelled data for many content domains is difficult to come by. Existing table
extraction datasets often focus on scientific tables due to the vast amount of
academic articles that are readily available, along with their source code.
However, there are significant layout and typographical differences between
tables found across scientific, financial, and other domains. Current datasets
often lack the words, and their positions, contained within the tables, instead
relying on unreliable OCR to extract these features for training modern machine
learning models on natural language processing tasks. Therefore, there is a
need for a more general method of obtaining labelled data. We present
SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our
hope is that our method of generating these synthetic tables is transferable to
other domains. To demonstrate the effectiveness of our dataset in training
models to extract information from table images, we create FinTabQA, a layout
large language model trained on an extractive question-answering task. We test
our model using real-world financial tables and compare it to a
state-of-the-art generative model and discuss the results. We make the dataset,
model, and dataset generation code publicly available.Summary
AI-Generated Summary