Мультимодальная симфония: интеграция вкуса и звука с помощью генеративного ИИ

Аннотация

В последние десятилетия нейробиологические и психологические исследования выявили прямые взаимосвязи между вкусовыми и слуховыми восприятиями. В данной статье исследуются мультимодальные генеративные модели, способные преобразовывать информацию о вкусе в музыку, основываясь на этих фундаментальных исследованиях. Мы предоставляем краткий обзор современных достижений в этой области, выделяя ключевые результаты и методологии. Представлен эксперимент, в котором используется доработанная версия генеративной модели музыки (MusicGEN) для создания музыкальных композиций на основе детальных описаний вкуса, предоставленных для каждого произведения. Результаты обнадеживают: согласно оценке участников (n=111), доработанная модель создает музыку, которая более последовательно отражает введенные описания вкуса по сравнению с не доработанной моделью. Это исследование представляет собой значительный шаг в понимании и разработке воплощенных взаимодействий между ИИ, звуком и вкусом, открывая новые возможности в области генеративного ИИ. Мы публикуем наш набор данных, код и предварительно обученную модель по адресу: https://osf.io/xs5jy/.

English

In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants' (n=111) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.

Мультимодальная симфония: интеграция вкуса и звука с помощью генеративного ИИ

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

Аннотация

Summary

Support