Шесть способов обмануть ИИ. Исследование Google об уязвимостях умных помощников

Хватит и одного слова, чтобы превратить программу в шпиона.


ocrcrfwwyl3nua1liwa38xnbhos5e39x.jpg

Специалисты из Google DeepMind показали, как обычные веб-страницы могут превратиться в инструмент атак на автономные ИИ-агенты . Речь идёт не о сложных взломах инфраструктуры, а о хитро подготовленном контенте, который сбивает алгоритмы с толку и заставляет действовать в интересах злоумышленников.

В опубликованной работе команда описывает шесть типов атак, которые используют содержимое сайтов для подмены контекста и провоцируют неожиданные действия. Такие сценарии получили название «ловушки для ИИ-агентов». Злоумышленники могут применять их для продвижения товаров, утечки данных или массового распространения информации.

Авторы объясняют, что вредоносные элементы внедряют прямо в страницы или цифровые ресурсы. Они учитывают особенности поведения агентов — следование инструкциям, использование инструментов и расстановку приоритетов. В результате даже корректно настроенный агент может принять скрытые указания за легитимные.

Выделенные классы атак охватывают внедрение скрытого контента, манипуляции смыслом, воздействие на «когнитивное состояние» агента, управление поведением, системные уязвимости и сценарии с участием человека. Во многих случаях используется разрыв между тем, что видит человек, и тем, что анализирует машина. Например, команды прячут в HTML-комментариях, метаданных или даже в форматировании текста.