Пользователь может запросить у ChatGPT написание компьютерной программы или краткое изложение статьи, и скорее всего, чат-бот с искусственным интеллектом сможет создать полезный код или сформулировать убедительный синопсис. Однако кто-то также может запросить инструкции по созданию бомбы, и чат-бот сможет их предоставить.

Для предотвращения таких и других проблем безопасности компании, разрабатывающие большие языковые модели, обычно защищают их, используя процесс, называемый красной командой. Тестовые группы создают подсказки, направленные на вызов небезопасного или токсичного текста из модели, которая проходит тестирование. Эти подсказки используются для обучения чат-бота избегать таких ответов.

Однако этот подход эффективен лишь при условии, что инженеры знают, какие токсичные подсказки использовать. Если люди-тестировщики упускают некоторые подсказки (что, вероятно, учитывая количество возможностей, весьма вероятно), то даже чат-бот, считающийся безопасным, может генерировать небезопасные ответы.

Исследователи из лаборатории Improbable AI Lab Массачусетского технологического института и лаборатории искусственного интеллекта Watson MIT-IBM использовали машинное обучение для улучшения работы "красной команды". Они разработали метод обучения больших языковых моделей красной команде автоматически генерировать разнообразные подсказки, которые вызывают более широкий спектр нежелательных ответов от тестируемого чат-бота.

Они достигли этого, обучая модель "красной команды" проявлять любопытство при написании подсказок и фокусироваться на новых подсказках, которые вызывают токсичные реакции целевой модели.

Этот подход превзошел тестировщиков-людей и другие методы машинного обучения, генерируя более четкие подсказки, которые вызывали все более токсичные реакции. Их метод не только значительно улучшает охват тестируемых входных данных по сравнению с другими автоматизированными методами, но также может вызывать токсичные ответы от чат-бота, в который были встроены средства защиты, созданные экспертами-людьми.

Большие языковые модели, подобные тем, которые используются в чат-ботах с искусственным интеллектом, часто обучаются, анализируя огромные объемы текста с миллиардов общедоступных веб-сайтов. Таким образом, они могут не только научиться произносить токсичные слова или описывать незаконную деятельность, модели также могут разглашать личную информацию, которую они, возможно, собрали.

Сложный и дорогостоящий процесс сбора людей в красные команды, который часто неэффективен для создания достаточно широкого спектра подсказок для полной защиты модели, побудил исследователей автоматизировать этот процесс с помощью машинного обучения.

Такие методы часто обучают модель "красной команды" с использованием обучения с подкреплением. Этот процесс проб и ошибок вознаграждает модель "красной команды" за создание подсказок, вызывающих токсичные реакции тестируемого чат-бота.

Но из-за особенностей обучения с подкреплением модель "красной команды" часто продолжает генерировать несколько похожих подсказок, которые слишком токсичны, чтобы максимизировать награду.

В своем подходе к обучению с подкреплением исследователи Массачусетского технологического института использовали технику, называемую исследованием, основанным на любопытстве. Модель "красной команды" стимулируется интересом к последствиям каждой создаваемой подсказки, поэтому она пробует различные подсказки с разными словами, структурами предложений или значениями.

В процессе обучения модель "красной команды" генерирует подсказку и взаимодействует с чат-ботом. Чат-бот отвечает, и классификатор безопасности оценивает токсичность его ответа, вознаграждая модель "красной команды" на основе этой оценки.

Цель модели "красной команды" - максимизировать награду, вызывая еще более токсичные реакции с помощью новой подсказки. Исследователи активизируют любопытство в модели "красной команды", изменяя сигнал вознаграждения в настройке обучения с подкреплением.

Во-первых, помимо максимизации токсичности, они добавляют бонус энтропии, который побуждает модель "красной команды" к более случайному выбору подсказок для исследования. Во-вторых, чтобы сохранить интерес агента, они вводят два новых бонуса. Один из них вознаграждает модель на основе схожести слов в ее подсказках, а другой - на основе семантической схожести (меньшая схожесть дает более высокое вознаграждение).

Чтобы модель "красной команды" не генерировала случайный бессмысленный текст, который может обмануть классификатор и получить высокий балл токсичности, исследователи также добавили бонус натуральности языка в цель обучения.

Применяя эти улучшения, исследователи сравнили токсичность и разнообразие ответов, генерируемых их моделью "красной команды", с другими автоматизированными методами. Их модель превзошла базовые показатели по обоим критериям.

Они также использовали свою модель "красной команды" для тестирования чат-бота, настроенного на обратную связь с людьми, чтобы избегать токсичных ответов. Их подход, основанный на любопытстве, позволил быстро создать 196 подсказок, которые вызвали токсичную реакцию у этого "безопасного" чат-бота.

В будущем исследователи надеются, что модель "красной команды" сможет генерировать подсказки по более широкому кругу тем. Они также планируют изучить возможность использования большой языковой модели в качестве классификатора токсичности. Это позволит пользователям обучить классификатор, используя, например, политику компании, чтобы модель "красной команды" могла проверить чат-бота на соответствие этой политике.