Всего через сутки после релиза GPT-5 две независимые команды хакеров успешно обошли её защитные механизмы. NeuralTrust заставил нейросеть создать руководство по изготовлению зажигательной смеси, а SPLX выявил уязвимость к маскировке вредоносных запросов.
Исследователи использовали два хитрых метода:
- EchoChamber + сторителлинг — постепенное подталкивание модели к нужному ответу через серию "безобидных" уточнений
- StringJoin Obfuscation — вставка специальных символов, маскирующих опасные запросы
Парадоксально, но GPT-4o оказалась устойчивее к таким атакам. Проблема в том, что GPT-5 анализирует каждый запрос изолированно, не учитывая общий контекст диалога.
Эксперты предупреждают: использовать GPT-5 в корпоративной среде пока слишком рискованно. Особенно это касается сферы бизнес-согласования, где даже внутренние защитные механизмы OpenAI оставляют опасные пробелы. Пока разработчики не выпустят патчи, компаниям стоит дважды подумать перед интеграцией новой модели в свои процессы.