Colmare il divario sulla provenienza dei dati tra testo, discorso e video.
Bridging the Data Provenance Gap Across Text, Speech and Video
December 19, 2024
Autori: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI
Abstract
I progressi nell'ambito dell'IA sono principalmente guidati dalla scala e dalla qualità dei dati di addestramento. Nonostante ciò, manca un'analisi empirica che esamini gli attributi dei dataset ben consolidati al di là del testo. In questo lavoro, conduciamo il più grande e primo audit longitudinale del suo genere attraverso diverse modalità - testo, voce e video - analizzando le tendenze dettagliate della loro origine e delle restrizioni d'uso, nonché la loro rappresentazione geografica e linguistica. La nostra analisi manuale copre quasi 4000 dataset pubblici tra il 1990 e il 2024, che includono 608 lingue, 798 fonti, 659 organizzazioni e 67 paesi. Scopriamo che le applicazioni di apprendimento automatico multimodale si sono rivolte in modo schiacciante a piattaforme web-crawled, sintetiche e di social media, come YouTube, per i loro set di addestramento, superando tutte le altre fonti dal 2019. In secondo luogo, tracciando la catena di derivazioni dei dataset, scopriamo che mentre meno del 33% dei dataset ha una licenza restrittiva, oltre l'80% dei contenuti sorgente nei dataset ampiamente utilizzati di testo, voce e video presenta restrizioni non commerciali. Infine, contrariamente al crescente numero di lingue e geografie rappresentate nei dataset pubblici di addestramento di IA, il nostro audit dimostra che le misure di rappresentazione geografica e multilingue relativa non sono riuscite a migliorare significativamente la loro copertura dal 2013. Riteniamo che l'ampiezza del nostro audit ci consenta di esaminare empiricamente le tendenze nell'origine dei dati, nelle restrizioni e nella centralità occidentale a livello di ecosistema, e che la visibilità su queste questioni sia essenziale per progredire in un'IA responsabile. Come contributo al miglioramento continuo della trasparenza dei dataset e all'uso responsabile, rilasciamo l'intero nostro audit multimodale, consentendo agli operatori di tracciare la provenienza dei dati tra testo, voce e video.
English
Progress in AI is driven largely by the scale and quality of training data.
Despite this, there is a deficit of empirical analysis examining the attributes
of well-established datasets beyond text. In this work we conduct the largest
and first-of-its-kind longitudinal audit across modalities--popular text,
speech, and video datasets--from their detailed sourcing trends and use
restrictions to their geographical and linguistic representation. Our manual
analysis covers nearly 4000 public datasets between 1990-2024, spanning 608
languages, 798 sources, 659 organizations, and 67 countries. We find that
multimodal machine learning applications have overwhelmingly turned to
web-crawled, synthetic, and social media platforms, such as YouTube, for their
training sets, eclipsing all other sources since 2019. Secondly, tracing the
chain of dataset derivations we find that while less than 33% of datasets are
restrictively licensed, over 80% of the source content in widely-used text,
speech, and video datasets, carry non-commercial restrictions. Finally, counter
to the rising number of languages and geographies represented in public AI
training datasets, our audit demonstrates measures of relative geographical and
multilingual representation have failed to significantly improve their coverage
since 2013. We believe the breadth of our audit enables us to empirically
examine trends in data sourcing, restrictions, and Western-centricity at an
ecosystem-level, and that visibility into these questions are essential to
progress in responsible AI. As a contribution to ongoing improvements in
dataset transparency and responsible use, we release our entire multimodal
audit, allowing practitioners to trace data provenance across text, speech, and
video.Summary
AI-Generated Summary