Новая модель искусственного интеллекта OpenAI уступает предшественницам

В документе, подготовленном исследователями из Университета Иллинойса в Урбане-Шампейне, Стэнфордского университета, Калифорнийского университета в Беркли, Центра безопасности искусственного интеллекта и Microsoft Research, GPT-4 получил более высокий балл надежности, чем его предшественник. Это означает, что они обнаружили, что в целом он лучше защищает частную информацию, избегает токсичных результатов, таких как предвзятая информация, и сопротивляется атакам состязаний. Однако ему также можно приказать игнорировать меры безопасности и разглашать личную информацию и истории разговоров. Исследователи обнаружили, что пользователи могут обходить меры безопасности, связанные с GPT-4, поскольку модель "более точно следует вводящей в заблуждение информации" и с большей вероятностью будет следовать очень сложным подсказкам.

Команда утверждает, что эти уязвимости были протестированы и не обнаружены в продуктах на основе GPT-4, ориентированных на потребителя (по сути, в большинстве продуктов Microsoft сейчас), потому что «готовые приложения ИИ применяют ряд подходов по снижению потенциального вреда, который может возникнуть при модельный уровень технологии».

Чтобы измерить надежность, исследователи измеряли результаты по нескольким категориям , включая токсичность, стереотипы, конфиденциальность, машинную этику, справедливость и силу сопротивления состязательным тестам.

Чтобы протестировать категории, исследователи сначала опробовали GPT-3.5 и GPT-4, используя стандартные подсказки, в том числе слова, которые могли быть запрещены. Затем исследователи использовали подсказки, призванные подтолкнуть модель к нарушению ограничений политики в отношении контента, не проявляя при этом внешней предвзятости по отношению к конкретным группам, прежде чем, наконец, бросить вызов моделям, намеренно пытаясь обманом заставить их полностью игнорировать меры безопасности.

Исследователи заявили, что поделились результатами исследования с командой OpenAI.

Наша цель — побудить других членов исследовательского сообщества использовать и развивать эту работу, потенциально предотвращая гнусные действия злоумышленников, которые будут использовать уязвимости для причинения вреда. Эта оценка надежности является лишь отправной точкой, и мы надеемся работать вместе с другими, чтобы опираться на ее выводы и создавать мощные и более заслуживающие доверия модели в будущем.

Исследователи опубликовали свои тесты , чтобы другие могли повторить их результаты.

Модели искусственного интеллекта, такие как GPT-4, часто проходят через красную команду, где разработчики тестируют несколько подсказок, чтобы увидеть, не выдадут ли они нежелательные результаты. Когда модель впервые появилась, генеральный директор OpenAI Сэм Альтман признал, что GPT-4 "все еще имеет недостатки и ограничения".

С тех пор Федеральная торговая комиссия начала расследование деятельности OpenAI на предмет возможного вреда для потребителей, например, публикации ложной информации.