Ligando a Lacuna de Procedência de Dados entre Texto, Fala e Vídeo

Bridging the Data Provenance Gap Across Text, Speech and Video

December 19, 2024
Autores: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI

Resumo

O progresso em IA é impulsionado em grande parte pela escala e qualidade dos dados de treinamento. Apesar disso, há um déficit de análise empírica que examina os atributos de conjuntos de dados bem estabelecidos além do texto. Neste trabalho, realizamos a maior e pioneira auditoria longitudinal em várias modalidades - texto popular, fala e conjuntos de dados de vídeo - desde as tendências detalhadas de origem e restrições de uso até sua representação geográfica e linguística. Nossa análise manual abrange quase 4000 conjuntos de dados públicos entre 1990-2024, abrangendo 608 idiomas, 798 fontes, 659 organizações e 67 países. Descobrimos que as aplicações de aprendizado de máquina multimodal têm recorrido esmagadoramente a plataformas da web, sintéticas e de mídia social, como o YouTube, para seus conjuntos de treinamento, superando todas as outras fontes desde 2019. Em segundo lugar, ao rastrear a cadeia de derivações de conjuntos de dados, descobrimos que, embora menos de 33% dos conjuntos de dados tenham licenças restritivas, mais de 80% do conteúdo de origem em conjuntos de texto, fala e vídeo amplamente utilizados possuem restrições não comerciais. Por fim, contrariamente ao aumento do número de idiomas e geografias representados em conjuntos de dados públicos de treinamento de IA, nossa auditoria demonstra que as medidas de representação geográfica e multilíngue relativas falharam em melhorar significativamente sua cobertura desde 2013. Acreditamos que a amplitude de nossa auditoria nos permite examinar empiricamente as tendências na origem de dados, restrições e centralidade ocidental em nível de ecossistema, e que a visibilidade dessas questões é essencial para o progresso em IA responsável. Como contribuição para melhorias contínuas na transparência de conjuntos de dados e uso responsável, disponibilizamos toda a nossa auditoria multimodal, permitindo que os profissionais rastreiem a procedência dos dados em texto, fala e vídeo.
English
Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.

Summary

AI-Generated Summary

PDF82December 25, 2024