NVIDIA представила экспериментальную генеративную аудиомодель под названием Foundational Generative Audio Transformer Opus 1 или сокращённо Fugatto. Компания называет её «швейцарским ножом для работы со звуком». Модель способна создавать аудио на основе текстовых команд, а также изменять существующие музыкальные, голосовые и звуковые файлы. Fugatto разрабатывали специалисты из разных стран, и, по словам NVIDIA, её функционал включает поддержку различных акцентов и языков.

"Наша цель — создать модель, которая понимает и генерирует звук так, как это делают люди", — отметил Рафаэль Валле, руководитель направления прикладных аудиоисследований в NVIDIA. Среди потенциальных сценариев использования Fugatto компания выделила несколько интересных идей. Например, музыкальные продюсеры могут применять модель для быстрого создания черновых версий песен с возможностью легко менять стили, инструменты и голоса.

Fugatto также может быть полезен для создания голосовых материалов, которые можно использовать в приложениях для изучения языков. Разработчики игр могут генерировать вариации заранее записанных звуков, адаптируя их под изменения в сюжете или действия игроков. Более того, исследователи выяснили, что модель способна решать задачи, которым её специально не обучали. Например, она может объединять различные инструкции, создавая речь с определённым акцентом и эмоциональной окраской или звук пения птиц во время грозы. Fugatto даже может создавать звуки, меняющиеся со временем, например, шум дождя, который усиливается и утихает.

NVIDIA пока не объявила, станет ли Fugatto доступен широкой аудитории. Однако она не первая, кто разрабатывает генеративные аудиомодели. Meta уже выпустила ИИ-инструмент с открытым исходным кодом, который создаёт звуки на основе текстовых описаний. А Google предлагает доступ к своему проекту MusicLM, который генерирует музыку из текста, через платформу AI Test Kitchen.

Хотя конкуренция в этой области растёт, возможности Fugatto обещают сделать работу со звуком ещё более творческой и доступной для разных задач.