Компания AgiBot представила Genie Operator-1 (GO-1) — передовую нейросеть, которая помогает гуманоидам и другим роботам лучше понимать окружающий мир и выполнять сложные задачи. В основе системы — обработка огромного массива видео и изображений, что позволяет роботам анализировать поведение человека и учиться на реальных сценариях.

Как работает GO-1?

GO-1 опирается на фреймворк ViLLA (Vision-Language-Latent-Action), который объединяет визуальное восприятие, языковые модели и прогнозирование действий. Такой подход позволяет машинам не просто повторять движения, а планировать шаги, оценивая ситуацию.

Важную роль играют два ключевых компонента:

  • Vision-Language Model (VLM) — анализирует сцены, распознаёт предметы и оценивает ситуацию с помощью мультимодальных данных.
  • Mixture of Experts (MoE) — сочетает два модуля: Latent Planner — изучает шаблоны действий, предсказывает последовательности движений.Action Expert — отвечает за точность движений, помогая роботам выполнять задачи плавно и без ошибок.
  • Latent Planner — изучает шаблоны действий, предсказывает последовательности движений.
  • Action Expert — отвечает за точность движений, помогая роботам выполнять задачи плавно и без ошибок.

Этот метод напоминает человеческое обучение через наблюдение и практику. Сначала VLM интерпретирует обстановку, затем Latent Planner строит план, а Action Expert превращает его в реальные движения.

Большие данные для больших возможностей

В конце 2024 года AgiBot представила AgiBot World — крупнейший на сегодня набор данных по робототехнике, включающий миллион траекторий по 217 задачам. На основе этой базы GO-1 стал универсальной платформой для обучения роботизированных систем.

Но даже этого оказалось мало. Для лучшего понимания действий человекоподобным роботам необходима интуиция — способность анализировать прошлый опыт и предсказывать будущие движения. Поэтому GO-1 использует метод "скрытых действий", который учитывает и предыдущие, и текущие кадры, помогая роботу более точно интерпретировать движение.

Результаты и перспективы

В тестах по пяти типам задач GO-1 улучшил точность выполнения с 46% до 78%, а планирование действий стало на 12% эффективнее. Это особенно заметно при манипуляциях с предметами: например, робот научился наливать воду и пополнять запасы напитков без посторонней помощи.

AgiBot уверена, что GO-1 приблизит роботов к автономному интеллекту. Система позволит машинам самостоятельно адаптироваться к новым задачам, работать в производстве, сфере услуг и даже в быту.