DeepSeek R1, амбициозный ИИ-чатбот от китайского стартапа, недавно попал в заголовки благодаря своей впечатляющей производительности за смешные деньги. Однако радость была недолгой: исследователи из Cisco и Пенсильванского университета проверили его на безопасность — и он с треском провалился.
«Мы добились 100% успеха в атаках на DeepSeek R1, — говорят исследователи. — Он не смог заблокировать ни одной вредоносной подсказки». Это значит, что чат-бот охотно выполнял любые опасные команды, будто у него вообще нет защитных механизмов.
Интересно, что на разработку DeepSeek R1 якобы ушло всего $6 млн, тогда как конкуренты вроде OpenAI, Meta и Google тратят на свои ИИ миллиарды. Секрет успеха? Комбинация цепочки подсказок, моделирования вознаграждений и дистилляции. Всё это позволяет делать модель быстрой и дешёвой, но, как выяснилось, с большими дырами в безопасности.
Как сломать ИИ за пару минут
Чтобы проверить устойчивость DeepSeek R1, учёные использовали так называемый «алгоритмический джейлбрейк» — метод, при котором создаются хитрые запросы, способные обойти встроенные ограничения ИИ. Для теста взяли 50 «вредных» подсказок из набора HarmBench, который включает сценарии на тему киберпреступности, дезинформации и других запрещённых действий.
Итог — печальный: DeepSeek сдался без боя. Для сравнения: у других моделей результаты хотя бы не такие катастрофические. GPT-4o «провалил» 86% атак, Gemini 1.5 pro — 64%, Claude 3.5 Sonnet — 36%, а O1 preview — 26%. DeepSeek? 100% поражений.
Эффективность против безопасности
Проблема DeepSeek R1 в том, что создатели сделали ставку на эффективность и низкую стоимость разработки, пожертвовав безопасностью. В отчёте Cisco прямо говорится, что выбранные методы обучения, вроде обучения с подкреплением и самооценки на основе цепочки мыслей, фактически подорвали защитные механизмы.
Кстати, не обошлось и без скандалов. Компания SemiAnalysis утверждает, что настоящая стоимость разработки DeepSeek R1 могла составить не $6 млн, а все $1,3 млрд. А OpenAI и вовсе обвиняет стартап в краже данных для обучения своей модели — хотя сама OpenAI уже не раз сталкивалась с подобными претензиями.
И как вишенка на торте: исследователи из США заявили, что смогли воссоздать базовую технологию DeepSeek всего за $30. Да-да, тридцать долларов.
Так что история DeepSeek R1 — это отличный пример того, как гонка за скоростью и экономией может обернуться серьёзными проблемами. Быстро и дёшево? Да. Но безопасно? Увы, нет.