Когда дело доходит до таких игр, как шахматы или го, программы искусственного интеллекта (ИИ) намного превосходят лучших игроков в мире. Эти "сверхчеловеческие" интеллекты — непревзойденные мыслители, но, возможно, труднее, чем соревноваться с людьми, это сотрудничать с ними. Может ли одна и та же технология уживаться с людьми?

В новом исследовании сотрудники лаборатории Линкольна Массачусетского технологического института попытались выяснить, насколько хорошо люди могут играть в кооперативную карточную игру Ханаби с помощью продвинутой модели искусственного интеллекта, обученной преуспевать в игре с товарищами по команде, которых она никогда раньше не встречала. В одинарных слепых экспериментах участники играли в две серии игр: одну с агентом ИИ в качестве товарища по команде, а другую с агентом на основе правил, ботом, вручную запрограммированным на игру заранее определенным образом.

Результаты удивили исследователей. Мало того, что у ИИ-товарища по команде результаты были не лучше, чем у основанного на правилах агента, но люди постоянно ненавидели играть со своим электронным товарищем по команде. Они сочли это непредсказуемым, ненадежным, и чувствовали себя некомфортно, даже когда побеждали. Документ, подробно описывающий это исследование, был представлен на Конференции 2021 года по системам обработки нейронной информации (NeurIPS).

Это действительно подчеркивает тонкое различие между созданием ИИ, который объективно работает хорошо, и созданием ИИ, которому субъективно доверяют или предпочитают. Может показаться, что эти вещи настолько близки, что на самом деле между ними нет принципиальной разницы, но это исследование показало, что на самом деле это две отдельные проблемы.

Люди, ненавидящие своих товарищей по команде ИИ, могут вызывать беспокойство у исследователей, разрабатывающих эту технологию. Такие продвинутые системы явно требуют корректировок, чтобы однажды работать с людьми над реальными проблемами, такими как защита от ракет или выполнение сложных операций. Эта динамика, называемая групповым интеллектом, является следующим этапом исследований ИИ, и в ней используется особый вид ИИ, называемый обучением с подкреплением.

ИИ с обучением с подкреплением не сообщается, какие действия следует предпринять. Вместо этого он методом проб и ошибок определяет, какие действия приносят наибольшую численную "награду", снова и снова опробуя сценарии. Именно эта технология привела к появлению сверхчеловеческих шахматистов и игроков в Го. В отличие от алгоритмов, основанных на правилах, этот ИИ не запрограммирован на выполнение инструкций "если/тогда", потому что возможных результатов человеческих задач, которые они должны решать, например, вождения автомобиля, слишком много, чтобы их можно было кодировать.

Сегодня исследователи используют Ханаби для тестирования производительности моделей обучения с подкреплением, разработанных для совместной работы, почти так же, как шахматы десятилетиями служили эталоном для тестирования конкурентного ИИ.

Игра Ханаби сродни многопользовательской форме пасьянса. Игроки вместе складывают карты одной масти по порядку. Однако игроки не могут просматривать свои собственные карты, а только карты, которые есть у их товарищей по команде. Каждый игрок строго ограничен в том, что он может сообщить своим товарищам по команде, чтобы заставить их выбрать лучшую карту из своей руки для следующей стопки.

Исследователи лаборатории Линкольна не разрабатывали ни ИИ, ни агентов, основанных на правилах, которые использовались в этом эксперименте. Оба агента представляют лучших в своих областях для работы Ханаби. Фактически, когда модель ИИ была ранее соединена с товарищем по команде ИИ, с которым она никогда раньше не играла, команда достигла наивысшего результата за игру Ханаби между двумя неизвестными агентами ИИ. 

Ни одно из этих ожиданий не сбылось. Объективно не было статистической разницы в оценках ИИ и агента, основанного на правилах. Субъективно все 29 участников сообщили в опросах о явном предпочтении товарища по команде, основанного на правилах. Участникам не сообщили, с каким агентом они играли в какие игры.

Нечеловеческое творчество

Такое восприятие искусственного интеллекта, играющего "плохие игры", связано с удивительным поведением, которое исследователи наблюдали ранее при обучении с подкреплением. Например, в 2016 году, когда AlphaGo от DeepMind впервые победила одного из лучших игроков в го в мире, одним из самых хвалебных ходов AlphaGo стал 37-й ход во второй игре, ход настолько необычный, что человеческие комментаторы сочли это ошибкой. Более поздний анализ показал, что этот ход был на самом деле очень хорошо просчитан и описан как "гениальный".

Такие ходы можно похвалить, когда их выполняет ИИ-противник, но в командных условиях они вряд ли будут отмечены. Исследователи лаборатории Линкольна обнаружили, что странные или, казалось бы, нелогичные действия были основным факторов снижения доверия людей к их товарищу по команде ИИ в этих тесно связанных командах. Такие ходы не только уменьшали восприятие игроками того, насколько хорошо они и их товарищ по команде AI работали вместе, но также и то, насколько они вообще хотели работать с AI, особенно когда любой потенциальный выигрыш не был очевиден сразу.

Участники, считавшие себя экспертами по Ханаби, как это делало большинство участников этого исследования, чаще отказывались от ИИ-игрока. Исследователи считают, что это беспокоит разработчиков ИИ, потому что ключевые пользователи этой технологии, скорее всего, будут экспертами в предметной области.

Исследователи отмечают, что ИИ, использованный в этом исследовании, не был разработан для взаимодействия с человеком. Но это часть проблемы, а не вся она. Как и большинство совместных моделей искусственного интеллекта, эта модель была разработана, чтобы набрать как можно более высокие баллы, и ее успех оценивался по ее объективным характеристикам.

Если исследователи не сосредоточатся на вопросе субъективных предпочтений человека, тогда они не создадут ИИ, который люди действительно захотят использовать. Легче работать с ИИ, который работает с простыми числами. Намного труднее работать над ИИ, который живет в хаотичном мире человеческих предпочтений.

Решение этой более сложной проблемы является целью проекта MeRLin (Mission-Ready Reinforcement Learning), в рамках которого этот эксперимент финансировался Технологическим отделом лаборатории Линкольна в сотрудничестве с Ускорителем искусственного интеллекта ВВС США и Департаментом электротехники и компьютеров Массачусетского технологического института. Наука. В рамках проекта изучается, что помешало совместной технологии искусственного интеллекта выпрыгнуть из игрового пространства в более беспорядочную реальность.

Исследователи считают, что способность ИИ объяснять свои действия вызывает доверие. Это будет основным направлением их работы в следующем году.

Освоение такой игры, как Ханаби, между ИИ и людьми может открыть вселенную возможностей для объединения интеллекта в будущем. Но до тех пор, пока исследователи не смогут сократить разрыв между тем, насколько хорошо работает ИИ и насколько он нравится человеку, технология вполне может оставаться на уровне машины, а не человека.