SynFinTabs: un dataset di tabelle finanziarie sintetiche per l'estrazione di informazioni e tabelle

Abstract

L'estrazione delle tabelle dalle immagini dei documenti è un problema complesso nell'ambito dell'IA, e i dati etichettati per molti domini di contenuto sono difficili da reperire. I dataset esistenti sull'estrazione delle tabelle si concentrano spesso su tabelle scientifiche a causa della vasta quantità di articoli accademici facilmente disponibili, insieme al loro codice sorgente. Tuttavia, esistono significative differenze di layout e tipografiche tra le tabelle presenti nei settori scientifico, finanziario e in altri settori. I dataset attuali spesso non contengono le parole e le loro posizioni all'interno delle tabelle, affidandosi invece a un OCR non affidabile per estrarre queste caratteristiche per addestrare i moderni modelli di machine learning su compiti di elaborazione del linguaggio naturale. Pertanto, c'è bisogno di un metodo più generale per ottenere dati etichettati. Presentiamo SynFinTabs, un dataset ampio e etichettato di tabelle finanziarie sintetiche. Speriamo che il nostro metodo di generazione di queste tabelle sintetiche sia trasferibile ad altri settori. Per dimostrare l'efficacia del nostro dataset nell'addestrare modelli ad estrarre informazioni dalle immagini delle tabelle, creiamo FinTabQA, un grande modello linguistico di layout addestrato su un compito di domanda-risposta estrattiva. Testiamo il nostro modello utilizzando tabelle finanziarie reali e lo confrontiamo con un modello generativo all'avanguardia e discutiamo i risultati. Mettiamo a disposizione pubblica il dataset, il modello e il codice di generazione del dataset.

English

Table extraction from document images is a challenging AI problem, and labelled data for many content domains is difficult to come by. Existing table extraction datasets often focus on scientific tables due to the vast amount of academic articles that are readily available, along with their source code. However, there are significant layout and typographical differences between tables found across scientific, financial, and other domains. Current datasets often lack the words, and their positions, contained within the tables, instead relying on unreliable OCR to extract these features for training modern machine learning models on natural language processing tasks. Therefore, there is a need for a more general method of obtaining labelled data. We present SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our hope is that our method of generating these synthetic tables is transferable to other domains. To demonstrate the effectiveness of our dataset in training models to extract information from table images, we create FinTabQA, a layout large language model trained on an extractive question-answering task. We test our model using real-world financial tables and compare it to a state-of-the-art generative model and discuss the results. We make the dataset, model, and dataset generation code publicly available.

SynFinTabs: un dataset di tabelle finanziarie sintetiche per l'estrazione di informazioni e tabelle

SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

Abstract

Summary

Support