Шесть способов обмануть ИИ. Исследование Google об уязвимостях умных помощников

Хватит и одного слова, чтобы превратить программу в шпиона.

Специалисты из Google DeepMind показали, как обычные веб-страницы могут превратиться в инструмент атак на автономные ИИ-агенты . Речь идёт не о сложных взломах инфраструктуры, а о хитро подготовленном контенте, который сбивает алгоритмы с толку и заставляет действовать в интересах злоумышленников.

В опубликованной работе команда описывает шесть типов атак, которые используют содержимое сайтов для подмены контекста и провоцируют неожиданные действия. Такие сценарии получили название «ловушки для ИИ-агентов». Злоумышленники могут применять их для продвижения товаров, утечки данных или массового распространения информации.

Авторы объясняют, что вредоносные элементы внедряют прямо в страницы или цифровые ресурсы. Они учитывают особенности поведения агентов — следование инструкциям, использование инструментов и расстановку приоритетов. В результате даже корректно настроенный агент может принять скрытые указания за легитимные.

Выделенные классы атак охватывают внедрение скрытого контента, манипуляции смыслом, воздействие на «когнитивное состояние» агента, управление поведением, системные уязвимости и сценарии с участием человека. Во многих случаях используется разрыв между тем, что видит человек, и тем, что анализирует машина. Например, команды прячут в HTML-комментариях, метаданных или даже в форматировании текста.

Отдельное направление — семантические ловушки. Там злоумышленники подбирают формулировки так, чтобы вызвать у агента предвзятость или обойти механизмы проверки. Ещё один класс атак нацелен на долгосрочную память: вредоносные данные внедряют во внешние источники или внутренние журналы, из-за чего агент начинает опираться на искажённую информацию.

Сценарии управления поведением включают обход ограничений через внешние ресурсы, принуждение к раскрытию конфиденциальных данных и даже запуск подчинённых агентов с теми же правами, но в интересах атакующей стороны. Системные атаки используют взаимодействие сразу нескольких агентов, играя на синхронности и доверии внутри сети.

Особую тревогу вызывают ситуации, где в процесс вовлечён человек. Исследование показывает, что скрытые команды могут заставить агента выдавать вредоносные инструкции под видом рекомендаций, включая сценарии, напоминающие поведение программ-вымогателей.

Команда подчёркивает, что борьба с такими угрозами осложняется тремя факторами — сложностью обнаружения, трудностью определения источника атаки и необходимостью быстро адаптироваться к новым техникам. В качестве ответных мер предлагается усиление моделей за счёт дообучения, внедрение защит на этапе выполнения, а также развитие правил управления контентом и единых стандартов оценки рисков.

Авторы работы считают защиту ИИ-агентов от манипуляций среды базовой задачей для всей индустрии. Без совместных усилий разработчиков, специалистов по безопасности и регуляторов создать надёжную экосистему автономных систем не получится.