Tencent представила революционный ИИ для генерации 3D-видео из одного изображения

Новая модель HunyuanWorld-Voyager создает пространственно согласованные 3D-видеоролики на основе единственного исходного кадра. Алгоритм использует инновационный подход с обратной геометрической проекцией для достижения невиданной ранее стабильности.

Китайский технологический гигант Tencent совершил прорыв в области генеративного искусственного интеллекта, представив модель HunyuanWorld-Voyager с открытым исходным кодом. Эта система способна создавать 3D-видео из одного статического изображения, точно следуя заданной пользователем траектории движения камеры. В отличие от традиционных подходов, алгоритм одновременно генерирует цветное видео (RGB) и информацию о глубине (RGB-D), что позволяет воссоздавать трехмерные сцены без использования сложного моделирования.

Ключевое innovation Tencent заключается в использовании "глобального кэша" — динамически обновляемой коллекции 3D-точек, создаваемых из ранее сгенерированных кадров. Эта система обратной проекции обеспечивает беспрецедентную пространственную согласованность: объекты сохраняют свое положение при движении камеры, а перспектива изменяется корректно, как в реальной 3D-среде. Модель обучалась на более чем 100 тысячах видеоклипов, включая сгенерированные в Unreal Engine, что позволило ей освоить принципы движения виртуальной камеры.

Схема процесса создания мира в игре «Вояджер».

Однако технология имеет limitations: максимальная длина непрерывного видео составляет несколько минут, а полные 360-градусные облеты остаются сложной задачей из-за накопления ошибок. Для работы требуется значительная вычислительная мощность — от 60 ГБ видеопамяти для разрешения 540p. Доступ к модели предоставляется через Hugging Face, но с существенными лицензионными ограничениями, включая запрет на использование в ЕС, Великобритании и Южной Корее.

HunyuanWorld-Voyager представляет собой часть более крупной экосистемы Tencent Hunyuan, которая также включает инструменты для генерации 3D-объектов и видео по текстовым описаниям. Этот шаг демонстрирует растущую конкуренцию в области generative AI и открывает новые возможности для создания immersive-контента без специализированных 3D-навыков.