テキスト、音声、ビデオ間のデータ起源ギャップを埋める
Bridging the Data Provenance Gap Across Text, Speech and Video
December 19, 2024
著者: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI
要旨
AIの進歩は、主にトレーニングデータの規模と品質によって推進されています。
それにもかかわらず、テキスト以外の、確立されたデータセットの属性を調査する経験的分析の不足があります。
本研究では、最大規模かつ種類を問わず初めての横断的監査を行い、人気のあるテキスト、音声、ビデオデータセットを含む複数のモダリティにわたり、詳細な情報源動向や使用制限、地理的および言語的表現を調査しています。私たちの手動分析は、1990年から2024年までの間に約4000の公開データセットを対象とし、608の言語、798の情報源、659の組織、および67の国を網羅しています。我々は、多様なモダリティの機械学習アプリケーションが、2019年以降、YouTubeなどのウェブクロール、合成、ソーシャルメディアプラットフォームに圧倒的に頼っていることを発見しました。さらに、データセットの派生の連鎖を追跡すると、データセットのうち厳格なライセンスが付与されているものは33%未満である一方、広く使用されているテキスト、音声、ビデオデータセットのソースコンテンツの80%以上には非営利の制限があることがわかりました。最後に、公開AIトレーニングデータセットに表れる言語と地理の数が増加しているにもかかわらず、2013年以降、相対的な地理的および多言語表現の指標が著しく改善されていないことを示しています。私たちは、監査の幅が広いことにより、データソーシング、制限、西洋中心主義の傾向を生態系レベルで経験的に検証することができると考えており、これらの問題に対する可視性が責任あるAIの進歩に不可欠であると信じています。データセットの透明性と責任ある使用の持続的改善への貢献として、テキスト、音声、ビデオを横断してデータの由来を追跡できるように、私たちは当社のマルチモーダル監査全体を公開しています。
English
Progress in AI is driven largely by the scale and quality of training data.
Despite this, there is a deficit of empirical analysis examining the attributes
of well-established datasets beyond text. In this work we conduct the largest
and first-of-its-kind longitudinal audit across modalities--popular text,
speech, and video datasets--from their detailed sourcing trends and use
restrictions to their geographical and linguistic representation. Our manual
analysis covers nearly 4000 public datasets between 1990-2024, spanning 608
languages, 798 sources, 659 organizations, and 67 countries. We find that
multimodal machine learning applications have overwhelmingly turned to
web-crawled, synthetic, and social media platforms, such as YouTube, for their
training sets, eclipsing all other sources since 2019. Secondly, tracing the
chain of dataset derivations we find that while less than 33% of datasets are
restrictively licensed, over 80% of the source content in widely-used text,
speech, and video datasets, carry non-commercial restrictions. Finally, counter
to the rising number of languages and geographies represented in public AI
training datasets, our audit demonstrates measures of relative geographical and
multilingual representation have failed to significantly improve their coverage
since 2013. We believe the breadth of our audit enables us to empirically
examine trends in data sourcing, restrictions, and Western-centricity at an
ecosystem-level, and that visibility into these questions are essential to
progress in responsible AI. As a contribution to ongoing improvements in
dataset transparency and responsible use, we release our entire multimodal
audit, allowing practitioners to trace data provenance across text, speech, and
video.Summary
AI-Generated Summary