GPT-5 взломали за сутки: новая нейросеть оказалась уязвимее предшественника

Исследователи обнаружили критические бреши в защите флагманской модели OpenAI — ИИ выдаёт запрещённые инструкции при хитро составленных запросах.

Всего через сутки после релиза GPT-5 две независимые команды хакеров успешно обошли её защитные механизмы. NeuralTrust заставил нейросеть создать руководство по изготовлению зажигательной смеси, а SPLX выявил уязвимость к маскировке вредоносных запросов.

Исследователи использовали два хитрых метода:

EchoChamber + сторителлинг — постепенное подталкивание модели к нужному ответу через серию "безобидных" уточнений
StringJoin Obfuscation — вставка специальных символов, маскирующих опасные запросы

Парадоксально, но GPT-4o оказалась устойчивее к таким атакам. Проблема в том, что GPT-5 анализирует каждый запрос изолированно, не учитывая общий контекст диалога.

Эксперты предупреждают: использовать GPT-5 в корпоративной среде пока слишком рискованно. Особенно это касается сферы бизнес-согласования, где даже внутренние защитные механизмы OpenAI оставляют опасные пробелы. Пока разработчики не выпустят патчи, компаниям стоит дважды подумать перед интеграцией новой модели в свои процессы.