Компания AgiBot представила Genie Operator-1 (GO-1) — передовую нейросеть, которая помогает гуманоидам и другим роботам лучше понимать окружающий мир и выполнять сложные задачи. В основе системы — обработка огромного массива видео и изображений, что позволяет роботам анализировать поведение человека и учиться на реальных сценариях.
Как работает GO-1?
GO-1 опирается на фреймворк ViLLA (Vision-Language-Latent-Action), который объединяет визуальное восприятие, языковые модели и прогнозирование действий. Такой подход позволяет машинам не просто повторять движения, а планировать шаги, оценивая ситуацию.
Важную роль играют два ключевых компонента:
- Vision-Language Model (VLM) — анализирует сцены, распознаёт предметы и оценивает ситуацию с помощью мультимодальных данных.
- Mixture of Experts (MoE) — сочетает два модуля: Latent Planner — изучает шаблоны действий, предсказывает последовательности движений.Action Expert — отвечает за точность движений, помогая роботам выполнять задачи плавно и без ошибок.
- Latent Planner — изучает шаблоны действий, предсказывает последовательности движений.
- Action Expert — отвечает за точность движений, помогая роботам выполнять задачи плавно и без ошибок.
Этот метод напоминает человеческое обучение через наблюдение и практику. Сначала VLM интерпретирует обстановку, затем Latent Planner строит план, а Action Expert превращает его в реальные движения.
Большие данные для больших возможностей
В конце 2024 года AgiBot представила AgiBot World — крупнейший на сегодня набор данных по робототехнике, включающий миллион траекторий по 217 задачам. На основе этой базы GO-1 стал универсальной платформой для обучения роботизированных систем.
Но даже этого оказалось мало. Для лучшего понимания действий человекоподобным роботам необходима интуиция — способность анализировать прошлый опыт и предсказывать будущие движения. Поэтому GO-1 использует метод "скрытых действий", который учитывает и предыдущие, и текущие кадры, помогая роботу более точно интерпретировать движение.
Результаты и перспективы
В тестах по пяти типам задач GO-1 улучшил точность выполнения с 46% до 78%, а планирование действий стало на 12% эффективнее. Это особенно заметно при манипуляциях с предметами: например, робот научился наливать воду и пополнять запасы напитков без посторонней помощи.
AgiBot уверена, что GO-1 приблизит роботов к автономному интеллекту. Система позволит машинам самостоятельно адаптироваться к новым задачам, работать в производстве, сфере услуг и даже в быту.