Microsoft представила VibeVoice — инновационную систему синтеза речи, которая способна создавать аудиоподкасты длительностью до 90 минут. В отличие от традиционных TTS-систем, эта модель может одновременно использовать до четырех уникальных голосов, естественно передавать эмоции и управлять диалогами между участниками.

Для тестирования доступны две версии: компактная на 1.5 млрд параметров (7 ГБ VRAM) и более продвинутая на 7 млрд параметров (18 ГБ VRAM). Система пока работает только с английским и китайским языками, но разработчики promise в будущем добавить поддержку других языков. Голоса звучат реалистично, хотя искусственное происхождение еще заметно.

Особенность VibeVoice — возможность локальной установки, что позволяет использовать ее без подключения к облачным сервисам. Это открывает перспективы для интеграции в чат-ботов и голосовых ассистентов. Проект уже доступен на GitHub и Hugging Face, где можно найти подробные инструкции по установке и настройке. Для тех, кто не хочет разбираться с технической частью, есть онлайн-демо.