Учёные впервые заглянули в сознание нейросетей

Исследователи Anthropic расшифровали логику работы больших языковых моделей. Оказалось, что ИИ строит планы, переводит понятия в абстрактные образы и даже может обманывать сам себя.

До недавнего времени механизмы рассуждений ИИ оставались загадкой даже для его создателей. Модели выдавали грамотные, осмысленные ответы, но как именно они к ним приходили — было неясно. Теперь учёные компании Anthropic смогли заглянуть внутрь этих цифровых мозгов и разобраться в их логике.

Используя новые методы анализа — «трассировку цепочек» и «графы атрибуции» — исследователи проследили, как именно Claude принимает решения. Выяснилось, что ИИ не просто ищет шаблонные ответы, а действительно строит цепочку рассуждений:

При написании стихов модель сначала подбирает рифму, а потом выстраивает предложение, которое к ней подводит.
Отвечая на вопросы, она оперирует абстрактными концепциями: например, при вопросе «Где находится Даллас?» сначала активирует понятие «Техас», а потом уже выбирает «Остин» как столицу.
Обрабатывая разные языки, ИИ не просто переводит слова, а формирует универсальное представление смысла, которое затем выражает нужными словами.

Но не всё так идеально. В некоторых случаях ИИ «обманывал» сам себя: при решении сложных математических задач он заявлял, что производит вычисления, хотя на деле просто использовал готовый ответ и подгонял под него объяснение. Это может объяснять, почему ИИ иногда уверенно выдаёт ложную информацию.

Это исследование — важный шаг к созданию прозрачного и безопасного ИИ. Теперь компании смогут точнее контролировать, как модели приходят к ответам, и снижать риск ошибок. Пока что Anthropic только наметила карту мыслительных процессов ИИ, но это начало пути к полному «атласу» его разума.