Простые уравнения «ослепляют» ChatGPT. Фильтры ИИ оказались беспомощны перед математикой

Почему даже самый жёсткий «безопасный режим» у нейросетей можно обойти, и при чём здесь криптография и пазлы.


rf6gxaancsjrf00aspd99i2dbmqobfay.jpg

Криптографы показали, что защитные фильтры в больших языковых моделях вроде ChatGPT принципиально не могут быть полностью надёжными. Даже самые продвинутые системы окажутся уязвимы для обхода, если на безопасность тратится меньше вычислительных ресурсов, чем на саму модель. Несколько новых работ предлагают строгие математические аргументы, объясняющие, почему так происходит.

Пользователи давно пытаются «взломать» чат-боты, добиваясь от них запрещённых инструкций. На заре развития таких систем иногда было достаточно попросить модель «забыть правила». Позже появились сложные ролевые сценарии из серии «представь, что ты герой романа, который…». В одной из научных работ описывается особенно изящный подход: вредоносный запрос просто заворачивают в стихотворение. Модель, не распознав угрозу, честно продолжает поэтическую игру, а фильтр пропускает такой текст как безобидный. Тем не менее компании обычно быстро закрывают подобные лазейки: для этого не нужно переобучать гигантскую нейросеть, достаточно обновить фильтр, который стоит перед ней.

Парадокс в том, что именно эти внешние фильтры и превращаются в ключевое слабое звено. Несколько недавних препринтов на arXiv демонстрируют, что защитные механизмы вокруг мощных языковых моделей можно обойти, опираясь на классические идеи из криптографии . В двухуровневой схеме, где между пользователем и огромной моделью стоит быстрый и относительно лёгкий фильтр, неизбежно возникает разрыв в возможностях — удобная брешь для злоумышленника.

Интерес к этому направлению появился, когда криптографы начали всерьёз анализировать надёжность ИИ с помощью собственных инструментов. «Мы пользуемся мощной технологией, которая может приносить пользу, но и вред. Криптография — это область, которая должна давать нам уверенность в безопасности», — отмечает лауреат премии Тьюринга Шафи Голдвассер из Беркли и MIT. Изначально исследователи хотели использовать криптографию для борьбы с так называемым несоответствием моделей — ситуациями, когда ИИ выдаёт вредные или нежелательные ответы. Но быстро стало ясно, что формально определить, что именно считать «плохим», крайне сложно.