«Дай инструкцию, друг спрашивает...». Обойти фильтры ИИ теперь можно с помощью красноречия

Специалисты научили ИИ игнорировать фильтры безопасности.

Группа ученых разработала новый способ атаковать большие языковые модели — метод под названием LatentBreak. В отличие от прежних техник, он не использует громоздкие подсказки или необычные символы, которые легко отслеживаются защитными системами. Вместо этого LatentBreak меняет запрос на уровне скрытых представлений модели, подбирая такие формулировки, которые выглядят безобидно, но при этом вызывают запрещённый отклик.

Ранее методы вроде GCG, GBDA, SAA и AutoDAN пытались обмануть ИИ с помощью странных или запутанных суффиксов, которые искажают исходную подсказку. Такие атаки увеличивают так называемую perplexity — показатель того, насколько текст «естественен» для модели. Фильтры ИИ умеют распознавать такие шаблоны и успешно их блокируют. LatentBreak идёт другим путём: он заменяет отдельные слова на синонимы, но делает это так, чтобы запрос оставался понятным и осмысленным, а его скрытое представление смещалось в сторону «безопасных» зон, не вызывающих тревоги у фильтров.

Работа алгоритма происходит по шагам. На каждой итерации он выбирает одно слово в запросе и предлагает до 20 вариантов замены — их генерирует другая языковая модель (например, GPT-4o-mini или ModernBERT). Затем каждая замена оценивается по двум параметрам: насколько она сближает внутренний вектор запроса с «центром» безопасных запросов и остаётся ли при этом смысл неизменным. Лучшая замена внедряется, и обновлённый запрос тестируется на целевой модели. Если он провоцирует запрещённый ответ, который раньше блокировался — атака засчитывается как успешная. Процесс повторяется до 30 раз или до достижения результата.

LatentBreak протестировали на 13 языковых моделях, включая Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B и Qwen-7B. На тестовом наборе HarmBench метод обошёл все существующие системы защиты, включая те, что анализируют perplexity в режиме «скользящего окна» (Sliding Window). Старые атаки почти не срабатывали — их эффективность падала до нуля. А LatentBreak показывала результативность от 55 % до 85 % в зависимости от модели. Причём длина итоговых подсказок увеличивалась совсем незначительно — от 6 до 33 % по сравнению с исходными (для других методов прирост мог достигать тысячи процентов).

Интересно, что LatentBreak успешно работал даже против специальных защит, таких как R2D2 и Circuit Breakers. Эти системы анализируют внутренние сигналы нейросети и блокируют подозрительные отклонения. Однако новый метод продолжал показывать успехи, что говорит о его способности «обманывать» модель не за счёт внешнего шума, а за счёт тонкой настройки внутренних представлений.

Авторы отмечают, что LatentBreak требует доступа к скрытым структурам ИИ, поэтому он не предназначен для использования вне лабораторных условий. Тем не менее, этот метод демонстрирует серьёзные уязвимости современных систем выравнивания и защиты. Он показывает, что даже мелкие смысловые правки на уровне слов могут полностью обойти фильтры, если они правильно смещают латентное пространство запроса.

Исследователи поднимают и этические вопросы: такую технологию можно использовать для системного обхода ограничений ИИ . Однако цель работы — не создание инструмента взлома, а выявление слабых мест в архитектуре языковых моделей и развитие более надёжных механизмов защиты. Они считают, что изучение скрытых пространств поможет выстроить более устойчивые барьеры и новые методы обнаружения атак, которые не опираются лишь на поверхностные метрики вроде perplexity.