텍스트, 음성 및 비디오 간 데이터 출처 간격을 줄이는 방법
Bridging the Data Provenance Gap Across Text, Speech and Video
December 19, 2024
저자: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI
초록
AI 분야의 발전은 주로 규모와 훈련 데이터의 품질에 의해 주도됩니다. 그럼에도 불구하고, 텍스트 이외의 잘 알려진 데이터셋의 속성을 검토하는 경험적 분석이 부족합니다. 본 연구에서는 1990년부터 2024년까지 걸쳐 608개 언어, 798개 출처, 659개 기관, 67개 국가를 포괄하는 거의 4000개의 공개 데이터셋을 수동으로 분석하여, 텍스트, 음성, 비디오 데이터셋을 포함한 다양한 모달리티에서의 상세한 소싱 트렌드와 사용 제한, 지리적 및 언어적 표현을 조사합니다. 우리는 다모달 기계 학습 응용 프로그램이 2019년 이후로 YouTube와 같은 웹 크롤링, 합성, 소셜 미디어 플랫폼에 대한 훈련 세트로 압도적으로 기울어진 것을 발견했습니다. 둘째로, 데이터셋 파생 체인을 추적하면서, 데이터셋의 33% 미만이 제한적으로 라이선스되었지만, 널리 사용되는 텍스트, 음성, 비디오 데이터셋의 소스 콘텐츠 중 80% 이상이 비상업적 제한을 가지고 있음을 발견했습니다. 마지막으로, 공개 AI 훈련 데이터셋에 대표되는 언어 및 지리적 표현의 수가 증가하고 있음에도 불구하고, 우리의 감사는 2013년 이후 이들의 커버리지를 크게 개선하지 못했음을 보여줍니다. 우리의 감사 범위는 데이터 소싱, 제한 사항, 서구 중심성의 추세를 생태계 수준에서 경험적으로 검토할 수 있도록 하며, 이러한 문제에 대한 시각성이 책임 있는 AI 분야의 발전에 중요하다고 믿습니다. 데이터셋 투명성과 책임 있는 사용의 지속적인 개선에 기여하기 위해, 우리는 텍스트, 음성, 비디오를 통해 데이터 출처를 추적할 수 있도록 우리의 전체 다모달 감사를 공개합니다.
English
Progress in AI is driven largely by the scale and quality of training data.
Despite this, there is a deficit of empirical analysis examining the attributes
of well-established datasets beyond text. In this work we conduct the largest
and first-of-its-kind longitudinal audit across modalities--popular text,
speech, and video datasets--from their detailed sourcing trends and use
restrictions to their geographical and linguistic representation. Our manual
analysis covers nearly 4000 public datasets between 1990-2024, spanning 608
languages, 798 sources, 659 organizations, and 67 countries. We find that
multimodal machine learning applications have overwhelmingly turned to
web-crawled, synthetic, and social media platforms, such as YouTube, for their
training sets, eclipsing all other sources since 2019. Secondly, tracing the
chain of dataset derivations we find that while less than 33% of datasets are
restrictively licensed, over 80% of the source content in widely-used text,
speech, and video datasets, carry non-commercial restrictions. Finally, counter
to the rising number of languages and geographies represented in public AI
training datasets, our audit demonstrates measures of relative geographical and
multilingual representation have failed to significantly improve their coverage
since 2013. We believe the breadth of our audit enables us to empirically
examine trends in data sourcing, restrictions, and Western-centricity at an
ecosystem-level, and that visibility into these questions are essential to
progress in responsible AI. As a contribution to ongoing improvements in
dataset transparency and responsible use, we release our entire multimodal
audit, allowing practitioners to trace data provenance across text, speech, and
video.