В начале года OpenAI представила Sora — модель ИИ, способную создавать как реалистичные, так и фантастические видеосцены на основе текстовых подсказок. Несмотря на то что публичный релиз Sora был отложен, за последние месяцы свои модели видео-генерации выпустили такие стартапы, как Runway и Luma.

Теперь в игру вступила китайская Tencent, объявившая о запуске HunyuanVideo — модели ИИ для генерации видео с открытым исходным кодом. Это первая крупная модель такого уровня, где доступны как код, так и веса модели.

HunyuanVideo, по словам Tencent, может конкурировать с закрытыми системами, обеспечивая высокое качество изображения, сложные движения объектов, точное соответствие текстовым описаниям и стабильную работу. С 13 миллиардами параметров она становится самой крупной моделью видео-генерации с открытым исходным кодом. HunyuanVideo также предоставляет инструментарий для управления данными, совместного обучения изображений и видео, а также масштабируемую инфраструктуру для обучения и использования модели.

Профессиональная оценка показала, что HunyuanVideo превосходит такие популярные закрытые системы, как Runway Gen-3 и Luma 1.6.

Вместо использования отдельных моделей для работы с текстом, изображениями и видео Tencent выбрала гибридный подход. В основе HunyuanVideo лежит архитектура Transformer с механизмом Full Attention для единой обработки изображений и видео. Система использует двухэтапную схему «двойной поток в одинарный»: сначала текстовые и видео-токены обрабатываются независимо, чтобы каждая модальность могла развивать свои особенности без взаимного влияния. На следующем этапе токены объединяются и обрабатываются совместно, что позволяет эффективно интегрировать визуальную и семантическую информацию, повышая производительность.

Запуск HunyuanVideo открывает новые горизонты для технологий видео-генерации. Открытый код и доступность весов модели могут существенно изменить подход к созданию видеоконтента с помощью ИИ, делая такие инструменты доступными для широкой аудитории.