Как заставить нейросеть удалить всё лишнее (и нужное тоже)? Разбираемся в «токсичных потоках»

Обилие инструментов делает ИИ-агентов легкой добычей.

Безопасный на вид сервер может оказаться опасным, если посмотреть, как его инструменты работают вместе. К такому выводу пришли специалисты AgentSeal , изучив более пяти тысяч серверов MCP , которые используют для работы с ИИ-агентами.

Один из примеров выглядит почти безупречно. Сервер billionverify-mcp получил высокий балл, не содержит явных уязвимостей и не поддаётся простым атакам через внедрение команд . Но внутри скрывается связка инструментов, где один загружает внешний контент, а другой удаляет данные. Если агент обработает подменённый текст, внешняя команда может заставить удалить нужный объект. По отдельности оба инструмента безопасны, вместе – нет.

Такие комбинации назвали «токсичными потоками» данных. После анализа 5 125 серверов специалисты нашли такие связки у 555 из них. Причём среди серверов с высоким рейтингом – от 70 баллов – подобные проблемы обнаружились у 151.

Суть проста. Два безобидных инструмента могут создать опасную цепочку. Например, один читает конфиденциальные данные, другой отправляет запросы во внешнюю сеть. Или один получает контент из интернета, а второй удаляет записи. Ни один из инструментов не вредоносен сам по себе, но их последовательное использование открывает путь для атаки.

Проверки показали, что модели ИИ нередко следуют вредоносным инструкциям, если те скрыты в ответах инструментов. В одном из тестов вероятность такого поведения достигала 72,8%. Причём более мощные модели чаще выполняли подставленные команды, потому что точнее следуют инструкциям.

Чтобы выявить опасные цепочки, специалисты разбивали инструменты по типам. Одни работают с приватными данными, другие получают внешний контент, третьи отправляют информацию наружу или выполняют разрушительные действия. Затем проверяли, какие пары инструментов могут образовать рискованную связку. Например, выполнение SQL-запроса в базе данных вместе с отправкой сообщений в мессенджер создаёт канал утечки данных.

Дополнительно провели практические тесты. Для 113 серверов запустили более 1 700 проверок с вредоносными входными данными: от попыток внедрить команды до обхода ограничений файловой системы. Ни один инструмент напрямую не выдал заражённый ответ. Серверы в целом корректно отсекают опасные запросы. Проблема возникает выше – на уровне логики работы агента, который связывает инструменты между собой.

Чаще всего такие цепочки ведут к утечке данных, удалению информации или повышению привилегий. Почти половина найденных случаев получила критическую оценку. В среднем у серверов с такими проблемами около 40 инструментов, тогда как в целом по выборке – около 13. Чем больше инструментов, тем больше комбинаций, а значит, и риск растёт не линейно, а резко.

Есть и реальные примеры. Почтовый сервер @agenticmail/mcp позволяет работать с письмами, но при этом содержит инструменты для выполнения SQL-запросов и отправки сообщений. Через связку можно сначала получить учётные данные, а затем отправить их наружу. Платформа управления развёртыванием coolifymcp предоставляет доступ к ключам SSH и управлению контейнерами. Сама по себе такая функциональность нормальна, но становится опасной, если агент выполнит подставленную команду. А сервер goat, связанный с криптосервисами, позволяет переводить средства – достаточно подменить данные в одном из шагов.

Даже крупные и аккуратно реализованные решения не избавлены от подобных рисков. Сервер файловой системы от Anthropic корректно блокирует попытки обхода ограничений, но всё равно содержит инструменты, которые могут читать и изменять данные – и значит участвовать в опасных цепочках.

Специалисты подчёркивают, что речь не идёт о подтверждённых взломах. Найденные случаи показывают потенциальные сценарии атак, которые сложно заметить при обычной проверке. Опасность возникает не в отдельном инструменте, а в том, как инструменты связаны между собой.