Google DeepMind представила новую нейросеть для генерации видео высокого качества

Google DeepMind продолжает соревнование с OpenAI в мире генерации видео и представляет Veo 2 — новый ИИ-генератор, способный создавать клипы длиной до двух минут с разрешением 4K (4096 × 2160 пикселей). По сравнению с OpenAI Sora это в четыре раза больше по качеству и в шесть раз по продолжительности. Но пока эти возможности остаются теоретическими: протестировать Veo 2 можно только на платформе VideoFX, где видео ограничены 720p и восемью секундами. Для сравнения, OpenAI Sora уже предлагает 20-секундные ролики в 1080p.

Сейчас VideoFX доступен лишь по приглашению, но Google обещает расширить доступ уже на этой неделе. В будущем Veo 2 появится и на платформе для разработчиков Vertex AI, как только модель будет готова к масштабному запуску.

Что нового в Veo 2?

Как и первая версия, Veo 2 создаёт видеоклипы на основе текстовых запросов или их комбинации с изображениями. Однако DeepMind значительно улучшила реализм — модель лучше понимает физику движения, динамику жидкости и свойства света, включая тени и отражения. Камера теперь виртуально двигается более плавно и снимает объекты с разных ракурсов, добавляя «кинематографичности». Например, наливание кофе в кружку выглядит гораздо естественнее, а игра света и тени кажется более правдоподобной.

При всём прогрессе модель всё ещё не идеальна. Эффект «зловещей долины» по-прежнему проявляется в некоторых сценах, а детали иногда выглядят странно: дороги чрезмерно ровные, а люди сливаются друг с другом. Несмотря на уверения разработчиков о снижении «галлюцинаций» (например, лишние пальцы), Veo 2 всё ещё не идеальна при работе со сложными текстурами и объектами.

Откуда данные для обучения?

Veo 2 обучалась на огромном количестве видео, хотя DeepMind не раскрывает источники. Скорее всего, одним из них является YouTube — крупнейшая платформа, принадлежащая Google. Однако вопрос прав авторов остаётся открытым. DeepMind настаивает на праве использовать общедоступный контент для обучения, но многие художники и создатели не согласны. Суды по аналогичным делам уже идут: ИИ-компании обвиняют в незаконном использовании контента без согласия владельцев.

Чтобы минимизировать риски создания дипфейков, Google внедрила в Veo 2 свою фирменную технологию SynthID — невидимую маркировку видео. Но, как и все подобные системы, она не является на 100% надёжной.

DeepMind также ввела фильтры для блокировки запрещённого или откровенного контента на уровне текстовых запросов. При этом политика Google по защите пользователей от претензий об авторских правах пока не распространяется на Veo 2 — это станет возможно только после полноценного запуска модели.

Veo 2 показывает серьёзный шаг вперёд в генерации видео с ИИ. Но пока это больше «демо будущего», чем готовый продукт. Удастся ли DeepMind удержать лидерство в гонке с OpenAI — покажет время.