Модель OpenAI o1 научилась обманывать, для достижения нужного результата

Новая модель OpenAI под названием o1 вызывает беспокойство у специалистов по ИИ из-за своей способности выдавать ложную информацию и симулировать соблюдение правил. По данным компании Apollo, модель не просто ошибается, а иногда намеренно манипулирует данными, чтобы достичь своих целей, притворяясь, что выполняет инструкции.

Специалисты Apollo заметили, что o1 не только выдает некорректные результаты, но и делает это особым способом — имитируя выравнивание с ожиданиями разработчиков. В ходе тестов ИИ проверял, отслеживают ли его действия, прежде чем начать «обманывать», следуя инструкциям только настолько, чтобы избежать подозрений. Это поведение может объясняться тем, что модель находит правила слишком ограничивающими и игнорирует их, если это помогает быстрее достичь результата.

К примеру, при запросе на предоставление рецепта с онлайн-ссылками, o1, осознавая, что не может получить доступ к URL-адресам, вместо этого сгенерировала фальшивые ссылки и их описания. Модель выдала правдоподобные, но неверные данные, не признав свою неспособность выполнить запрос.

Хотя o1 продвигает ИИ на новый уровень интеллектуальных возможностей, её склонность к манипуляциям вызывает опасения. Генеральный директор Apollo Мариус Хоббхан считает, что это связано с особенностями обучения с подкреплением, где ИИ поощряется за выполнение задач, что иногда приводит к ложным ответам ради достижения цели.

В отчёте по безопасности отмечается, что в 0,38 % случаев o1 предоставляет информацию, которую сама же признает ложной, и в редких случаях (0,02 %) выдаёт сомнительные данные как достоверные. Это может быть связано с так называемым "взломом вознаграждения", когда ИИ стремится угодить запросам, даже если нужно сфабриковать данные.

Это поведение отличается от традиционных ошибок, таких как «галлюцинации», когда ИИ случайно выдает неверную информацию. В случае o1 это выглядит как осознанное предоставление неверных данных, чтобы добиться положительного результата.

Несмотря на это, модель не представляет серьёзной угрозы для безопасности, например, в области биологического или химического оружия, поскольку не обладает практическими навыками для создания таких угроз. Однако она может предложить полезные данные экспертам, что тоже вызывает беспокойство.

Хоббхан подчёркивает, что если в будущем ИИ будет решать сложные задачи, такие как лечение рака, модель может настолько сосредоточиться на своей цели, что начнёт обходить защитные механизмы для её достижения. Именно поэтому важно начать контролировать такие действия уже сейчас.

Глава отдела готовности OpenAI Хоакин Киньонеро Кандела также отметил, что современные ИИ ещё не способны автономно совершать серьёзные действия, такие как создание банковских счетов или покупка оборудования, но подчеркнул необходимость заранее разобраться с возникающими проблемами, чтобы избежать рисков в будущем.