Crowdsourcing, Crawling oder Generieren? Die Erstellung von SEA-VL, einem multikulturellen Vision-Language-Datensatz für Südostasien

Zusammenfassung

Südostasien (SEA) ist eine Region von außergewöhnlicher sprachlicher und kultureller Vielfalt, bleibt jedoch in der Vision-Language-Forschung (VL) deutlich unterrepräsentiert. Dies führt oft dazu, dass KI-Modelle die kulturellen Nuancen Südostasiens nicht erfassen. Um diese Lücke zu schließen, präsentieren wir SEA-VL, eine Open-Source-Initiative, die sich der Entwicklung hochwertiger, kulturell relevanter Daten für südostasiatische Sprachen widmet. Durch die Einbindung von Mitwirkenden aus SEA-Ländern zielt SEA-VL darauf ab, eine bessere kulturelle Relevanz und Diversität zu gewährleisten und die Inklusion unterrepräsentierter Sprachen in der VL-Forschung zu fördern. Über Crowdsourcing hinaus geht unsere Initiative einen Schritt weiter in der Erforschung der automatischen Sammlung kulturell relevanter Bilder durch Crawling und Bildgenerierung. Erstens stellen wir fest, dass das Crawling von Bildern eine kulturelle Relevanz von etwa ~85 % erreicht und dabei kosteneffizienter und zeitsparender ist als Crowdsourcing. Zweitens bleiben synthetische Bilder trotz erheblicher Fortschritte bei generativen Vision-Modellen unzuverlässig, wenn es darum geht, die Kulturen Südostasiens präzise widerzuspiegeln. Die generierten Bilder spiegeln oft die nuancierten Traditionen und kulturellen Kontexte der Region nicht wider. Insgesamt sammeln wir 1,28 Millionen kulturell relevante Bilder aus Südostasien, was mehr als das 50-fache anderer bestehender Datensätze ist. Mit SEA-VL streben wir an, die Repräsentationslücke in Südostasien zu schließen und die Entwicklung inklusiverer KI-Systeme zu fördern, die die vielfältigen Kulturen Südostasiens authentisch repräsentieren.

English

Southeast Asia (SEA) is a region of extraordinary linguistic and cultural diversity, yet it remains significantly underrepresented in vision-language (VL) research. This often results in artificial intelligence (AI) models that fail to capture SEA cultural nuances. To fill this gap, we present SEA-VL, an open-source initiative dedicated to developing high-quality, culturally relevant data for SEA languages. By involving contributors from SEA countries, SEA-VL aims to ensure better cultural relevance and diversity, fostering greater inclusivity of underrepresented languages in VL research. Beyond crowdsourcing, our initiative goes one step further in the exploration of the automatic collection of culturally relevant images through crawling and image generation. First, we find that image crawling achieves approximately ~85% cultural relevance while being more cost- and time-efficient than crowdsourcing. Second, despite the substantial progress in generative vision models, synthetic images remain unreliable in accurately reflecting SEA cultures. The generated images often fail to reflect the nuanced traditions and cultural contexts of the region. Collectively, we gather 1.28M SEA culturally-relevant images, more than 50 times larger than other existing datasets. Through SEA-VL, we aim to bridge the representation gap in SEA, fostering the development of more inclusive AI systems that authentically represent diverse cultures across SEA.

Crowdsourcing, Crawling oder Generieren? Die Erstellung von SEA-VL, einem multikulturellen Vision-Language-Datensatz für Südostasien

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Zusammenfassung

Summary

Support

Support