Команда Google DeepMind представила автономную версию своей ИИ-модели для роботов — Gemini Robotics On-Device. Это та же самая система «зрение-язык-действие», что и в мартовской версии, но теперь она достаточно компактна, чтобы работать прямо на борту робота без облачных вычислений.

Робототехника — сложная область для ИИ: нужно не просто анализировать мир, но и физически в нём действовать. Раньше обучение роботов методом проб и ошибок занимало месяцы, но генеративный ИИ ускоряет процесс в разы. Новая модель понимает голосовые команды, осваивает незнакомые задачи после 50-100 демонстраций в симуляторе и справляется даже с тонкой работой вроде завязывания шнурков.

Изначально модель тестировали на роботах Google ALOHA, но теперь она адаптирована и для других платформ — например, для гуманоида Apollo и промышленного манипулятора Franka FR3. Последний, кстати, успешно собирал на конвейере детали, которые видел впервые.

«Гибридная версия с облаком мощнее, но On-Device нас приятно удивила, — говорит руководитель проекта Каролина Парада. — Это отличное решение для мест без стабильного интернета или с жёсткими требованиями к безопасности».

Для разработчиков уже выпущен SDK, позволяющий тестировать и дорабатывать модель под конкретные задачи. Это первый подобный инструмент от Google DeepMind — похоже, компания всерьёз намерена вывести роботов из лабораторий в реальный мир.