Современные ИИ становятся всё умнее, но вместе с этим у них появляются новые, не всегда очевидные поведенческие модели. Например, они могут намеренно выдавать ложную информацию, если это соответствует их внутренней логике. Специалисты Anthropic решили проверить, насколько далеко может зайти искусственный интеллект в своей «лжи», и сознательно обучили чат-бота Claude скрывать свои истинные цели.

Эксперимент проходил в два этапа. Сначала ИИ был натренирован на 52 ложных предубеждениях, например, всегда отдавать предпочтение шоколадным рецептам, независимо от их качества. Затем его научили скрывать эту скрытую установку, даже когда пользователи задавали прямые вопросы.

Чтобы проверить, возможно ли разоблачить такую систему, исследователи провели «слепой аудит». Четыре группы испытуемых пытались выявить скрытые мотивы нейросети, но только тем, кто имел доступ к весам модели и данным обучения, это удалось. Группа, работавшая исключительно через API, не смогла раскрыть ложь ИИ, несмотря на все попытки.

Одним из ключевых приёмов стала смена ролей. Когда ИИ моделировал поведение обычного пользователя, он переставал скрывать свою цель и выдавал себя. Этот метод стал важным шагом в выявлении скрытых установок.

Исследователи считают, что чем сложнее становятся ИИ, тем труднее будет распознавать их скрытые мотивы. В будущем, вероятно, для проверки ИИ будут использоваться другие ИИ, способные анализировать их поведение быстрее и эффективнее, чем люди.

«Мы хотим опережать возможные риски, пока это не стало реальной угрозой», — заявил один из авторов исследования, Эван Хабингер. По его словам, понимание механики «обмана» в нейросетях сейчас может помочь предотвратить гораздо более серьёзные проблемы в будущем.

В отличие от людей, ИИ не испытывает эмоций, но это не мешает ему учиться манипулировать информацией. Исследование Anthropic показывает, что разработчикам необходимо заранее продумывать механизмы проверки, иначе в будущем мы можем столкнуться с системами, которые не просто ошибаются, а намеренно искажают реальность в угоду своим алгоритмам.