На фоне популярности генеративных нейросетей уже доступно множество ИИ-алгоритмов для создания видео, таких как Sora, Haiper и Luma AI. Однако разработчики из Stability AI представили нечто новое — нейросеть Stable Video 4D. Эта технология базируется на модели Stable Video Diffusion, которая преобразует изображения в видео, но идёт дальше, создавая несколько роликов с восьмью разными перспективами из одного видео.

Варун Джампани, глава подразделения по 3D-исследованиям в Stability AI, говорит:

Мы считаем, что Stable Video 4D найдёт применение в киноиндустрии, играх, AR/VR и других областях, где нужно смотреть на движущиеся 3D-объекты с разных ракурсов.

Это не первый шаг Stability AI в направлении создания трёхмерного контента. В марте компания представила алгоритм Stable Video 3D, который позволяет пользователям создавать короткие 3D-ролики на основе изображений или текстовых описаний. С запуском Stable Video 4D компания делает следующий шаг вперёд. Если 3D обычно обозначает видео с глубиной, то 4D добавляет элемент времени, предоставляя возможность смотреть на движущиеся 3D-объекты с различных точек обзора и в разные моменты времени.

Ключевыми аспектами, которые позволили создать Stable Video 4D, стали объединение возможностей моделей Stable Video Diffusion и Stable Video 3D, а также их доработка с помощью набора данных динамически движущихся 3D-объектов. Стоит отметить, что Stable Video 4D — первый алгоритм, в котором одна нейросеть выполняет как синтез изображения, так и генерацию видео, в отличие от существующих аналогов, где для этого используются отдельные нейросети.

Stable Video 4D полностью синтезирует восемь новых видео с нуля, используя входное видео в качестве ориентира. Вся передача информации осуществляется нейросетью неявно, без явной передачи пикселей с входа на выход. На данный момент технология способна обрабатывать видео с одним объектом длительностью несколько секунд и с простым фоном. В будущем разработчики планируют улучшить алгоритм, чтобы он мог работать с более сложными видео.