Сравнительный анализ ИИ всегда сопровождается спорами. Компании часто обвиняют в том, что они выбирают тесты, где их модели выглядят лучше конкурентов. Но вместо сухих математических расчетов ученые из лаборатории Hao предложили нечто иное: испытание на платформере. Если искусственный интеллект не способен обойти Гумб и Купа-труп, можно ли доверять ему в реальных задачах?
Эксперимент проводился в эмулированной версии Super Mario Bros., встроенной в платформу GamingAgent — специальный фреймворк, разработанный Hao Lab. ИИ-модели управляли Марио, создавая код на Python. Они получали простые команды вроде «перепрыгни через врага» и анализировали скриншоты игрового процесса, чтобы принимать решения.
Несмотря на то что игра выглядит простой, она требует не только стратегического мышления, но и молниеносной реакции. Лучший результат показал Claude 3.7 от Anthropic — он быстро адаптировался, точно рассчитывал прыжки и избегал врагов. Хорошо выступил и его предшественник, Claude 3.5.
А вот модели, известные своей аналитической мощностью, такие как GPT-4o от OpenAI и Gemini 1.5 Pro от Google, неожиданно провалились. Они долго «думали», обрабатывая каждое решение, что приводило к фатальным задержкам. Исследователи считают, что их чрезмерное внимание к расчетам мешало быстро реагировать на происходящее на экране.
Конечно, проверять ИИ на ретро-играх — это скорее любопытный эксперимент, чем строгий тест. Способность пройти Super Mario Bros. не определяет полезность модели в реальном мире. Однако сам факт, что мощные языковые модели испытывают трудности там, где люди действуют интуитивно, заставляет задуматься.
Тем, кто хочет проверить ИИ в деле, лаборатория Hao AI Lab открыла исходный код GamingAgent на GitHub. Возможно, в будущем такие игровые тесты помогут по-новому взглянуть на развитие искусственного интеллекта.