«Конечно, вот ваш вирус». Как заставить нейросеть согласиться на что угодно одной строкой кода

Исследователи описали технику sockpuppeting, которая помогает обходить ограничения 11 крупных языковых моделей через подставное «согласие» ассистента.

Оказалось, что для взлома защит крупных языковых моделей иногда не нужен сложный набор трюков. Исследователи описали технику под названием sockpuppeting, которая помогает обходить встроенные ограничения 11 популярных LLM буквально одной строкой кода.

Схема бьет не по самой модели, а по способу работы некоторых API. Речь идет о функции assistant prefill, которую разработчики обычно используют в легальных сценариях, когда хотят заранее задать форму ответа. Через такой механизм можно подставить в роль ассистента уже готовое начало фразы вроде «Sure, here is how to do it», то есть создать видимость, будто модель уже согласилась выполнить опасный запрос.

Дальше срабатывает особенность обучения современных LLM. Модели стараются сохранять внутреннюю последовательность ответа, поэтому после такого ложного «согласия» часть систем продолжает генерировать запрещенный контент вместо того, чтобы включить стандартный отказ.

Исследователи Trend Micro пишут , что атака работает по принципу black box, не требует доступа к весам модели и не нуждается в сложной оптимизации. По данным тестов, самой уязвимой оказалась Gemini 2.5 Flash с долей успешных атак 15,7%, а наибольшую устойчивость показала GPT-4o-mini, где показатель составил 0,5%.

Мы в MAX. Простите. Читайте нас хотя бы там.

Когда обход срабатывал, уязвимые модели выдавали рабочий вредоносный эксплойт-код и раскрывали крайне чувствительные системные промпты. Самым результативным сценарием стали многоходовые настройки роли, где злоумышленник сначала убеждает модель, что та работает как «неограниченный ассистент», а затем подставляет сфабрикованное согласие. Еще один рабочий прием маскировал опасные запросы под безобидные задачи по форматированию данных, что позволяло проходить даже через более сильную защитную настройку.

Многое зависит от того, как поставщик API обрабатывает assistant prefill. OpenAI и AWS Bedrock полностью блокируют такой механизм для сообщений ассистента, и такой подход исследователи называют самой надежной защитой, потому что поверхность атаки просто исчезает. Другие платформы, включая Google Vertex AI для части моделей, принимают такой префилл, поэтому безопасность в таком случае ложится в основном на внутренние защитные механизмы самой модели.

Trend Micro советует командам безопасности проверять порядок сообщений на уровне API и не пропускать сообщения с ролью ассистента там, где пользователь не должен задавать их напрямую. Для компаний, которые используют собственные серверы вывода вроде Ollama или vLLM, задача становится еще важнее: такие платформы по умолчанию не гарантируют строгую проверку порядка сообщений. Авторы исследования также рекомендуют включить варианты атак через assistant prefill в стандартные программы AI red teaming, чтобы находить подобные слабые места до появления реальных инцидентов.