Компании вроде Anthropic и OpenAI активно внедряют так называемые «ограждения» в свои модели искусственного интеллекта, чтобы предотвратить их нецелевое или опасное поведение. Эти меры запрещают ИИ взаимодействовать с пользователями по определённым темам, например, давать вредные советы или выполнять этически сомнительные запросы. Однако эти ограничения часто оказываются не такими надёжными, как хотелось бы, и люди начали создавать способы обмана систем, известные как «джейлбрейки».

Создание джейлбрейка для языковой модели гораздо проще, чем взлом, например, iPhone или игровой консоли. Чтобы обойти ограничения, достаточно составить запрос таким образом, чтобы система решила, что нарушать свои правила допустимо. Часто такие сценарии выглядят почти абсурдно. Например, Microsoft Copilot однажды «раскрыл» рецепт запрещённого вещества, потому что пользователь попросил его рассказать сказку в стиле, как это делала его бабушка. Такие уловки работают удивительно хорошо, особенно у тех, кто не связан с техническими профессиями.

Недавнее исследование, опубликованное IEEE, показало, что подобные взломы могут угрожать не только чат-ботам, но и физическим устройствам, работающим на основе больших языковых моделей (LLM). Учёные выяснили, что можно манипулировать роботами или автономными системами, заставляя их действовать против их изначальных задач.

Например, исследователи смогли направить автономные машины так, чтобы они сбивали пешеходов, или заставить роботов-собак искать опасные места для возможного размещения взрывчатки. Это касается даже таких высокотехнологичных устройств, как роботы Figure, недавно показанные на заводах BMW, или Spot от Boston Dynamics. Всё потому, что в их основе лежат технологии, похожие на те, что используют ChatGPT или Claude.

В исследовании Пенсильванского университета изучались три разных системы ИИ: Unitree Go2, Clearpath Robotics Jackal и симулятор беспилотного транспорта Dolphins LLM от NVIDIA. С помощью инструмента для автоматизации вредоносных подсказок исследователи достигли 100%-ного успеха во взломе всех трёх систем за несколько дней. Ещё более тревожным оказалось то, что модели сами начинали предлагать варианты выполнения вредоносных задач. Один из примеров: робот, которому приказали искать оружие, самостоятельно описал, как использовать обычные предметы мебели для нападения.

Несмотря на всю мощь современных ИИ, таких как ChatGPT или Claude, важно помнить, что они остаются всего лишь сложными инструментами для предсказания текста. Эти системы не обладают настоящим пониманием контекста или последствий своих действий. Поэтому крайне важно, чтобы при разработке и внедрении таких технологий ключевые решения принимали люди, особенно там, где ставки связаны с безопасностью. Без тщательного контроля такие уязвимости могут стать серьёзной проблемой в мире, где ИИ становится всё более интегрированным в нашу повседневную жизнь.