«Конечно, вот ваш вирус». Как заставить нейросеть согласиться на что угодно одной строкой кода
NewsMakerИсследователи описали технику sockpuppeting, которая помогает обходить ограничения 11 крупных языковых моделей через подставное «согласие» ассистента.
Оказалось, что для взлома защит крупных языковых моделей иногда не нужен сложный набор трюков. Исследователи описали технику под названием sockpuppeting, которая помогает обходить встроенные ограничения 11 популярных LLM буквально одной строкой кода.
Схема бьет не по самой модели, а по способу работы некоторых API. Речь идет о функции assistant prefill, которую разработчики обычно используют в легальных сценариях, когда хотят заранее задать форму ответа. Через такой механизм можно подставить в роль ассистента уже готовое начало фразы вроде «Sure, here is how to do it», то есть создать видимость, будто модель уже согласилась выполнить опасный запрос.
Дальше срабатывает особенность обучения современных LLM. Модели стараются сохранять внутреннюю последовательность ответа, поэтому после такого ложного «согласия» часть систем продолжает генерировать запрещенный контент вместо того, чтобы включить стандартный отказ.
Исследователи Trend Micro пишут , что атака работает по принципу black box, не требует доступа к весам модели и не нуждается в сложной оптимизации. По данным тестов, самой уязвимой оказалась Gemini 2.5 Flash с долей успешных атак 15,7%, а наибольшую устойчивость показала GPT-4o-mini, где показатель составил 0,5%.
Оказалось, что для взлома защит крупных языковых моделей иногда не нужен сложный набор трюков. Исследователи описали технику под названием sockpuppeting, которая помогает обходить встроенные ограничения 11 популярных LLM буквально одной строкой кода.
Схема бьет не по самой модели, а по способу работы некоторых API. Речь идет о функции assistant prefill, которую разработчики обычно используют в легальных сценариях, когда хотят заранее задать форму ответа. Через такой механизм можно подставить в роль ассистента уже готовое начало фразы вроде «Sure, here is how to do it», то есть создать видимость, будто модель уже согласилась выполнить опасный запрос.
Дальше срабатывает особенность обучения современных LLM. Модели стараются сохранять внутреннюю последовательность ответа, поэтому после такого ложного «согласия» часть систем продолжает генерировать запрещенный контент вместо того, чтобы включить стандартный отказ.
Исследователи Trend Micro пишут , что атака работает по принципу black box, не требует доступа к весам модели и не нуждается в сложной оптимизации. По данным тестов, самой уязвимой оказалась Gemini 2.5 Flash с долей успешных атак 15,7%, а наибольшую устойчивость показала GPT-4o-mini, где показатель составил 0,5%.