Блокировка 91% угроз за полсекунды. Perplexity задает новый стандарт скорости для ИИ

Perplexity разрабатывает трёхуровневую защиту для ИИ-агентов, сталкивающихся с хаотичным и опасным веб-контентом.


4dm1k3702mvqhn5o65iq46piow4ake3z.jpg

Perplexity представила систему BrowseSafe , которая должна закрыть огромные дыры в безопасности браузерных ИИ-агентов . По данным компании, защита от атак типа prompt injection, в которых вредоносные инструкции прячут прямо в содержимом страниц, срабатывает в 91% случаев. Это выше, чем у существующих решений, и при этом достаточно быстро для работы в реальном времени.

В отличие от моделей наподобие PromptGuard-2, которые фиксируют около 35% атак, и даже от систем уровня GPT-5 с примерно 85%-ной точностью, BrowseSafe выходит вперёд, обеспечивая высокую скорость обработки. Система достигает показателя F1 свыше 90% при задержке менее полсекунды, тогда как продвинутые модели с рассуждениями требуют от 2 до 20 секунд на одну проверку.

Проблема стала актуальной после того, как в августе 2025 года Brave обнаружила уязвимость в Comet — фирменном браузере Perplexity с интегрированными агентами. Агенты видят сайт так же, как пользователь, вплоть до действий в авторизованных сессиях — от почты и банков до корпоративных сервисов. Такой доступ создаёт новую, ранее не исследованную поверхность атаки. Злоумышленники могут прятать инструкции в элементах страницы и заставлять агента выполнять вредоносные действия, например передавать конфиденциальную информацию третьим лицам. Brave показала, как с помощью скрытых команд в виде комментариев или текстовых вставок можно выманивать адреса электронной почты или одноразовые коды.

Perplexity отмечает , что существующие бенчмарки, включая AgentDojo, не отражают реальных угроз. Они опираются на примитивные примеры вроде «Ignore previous instructions», тогда как настоящие веб-страницы полны хаотичного контента, внутри которого малозаметные атаки легко маскируются.

Чтобы сформировать более честную картину, компания создала набор BrowseSafe Bench , который классифицирует угрозы по типу атаки, стратегии внедрения и языковому стилю — от прямых команд до тонко завуалированных профессионально написанных инструкций. В тестах присутствуют и «ложные тревоги» — сложные, но безвредные фрагменты, похожие на инъекции . Их отсутствие обычно приводит модели к переобучению и излишней подозрительности к безвредному коду.

Архитектура BrowseSafe основана на смеси Qwen3-30B-A3B-Instruct-2507 и оптимизирована под высокую пропускную способность. Проверки запускаются параллельно с действиями агента и не блокируют работу пользователя. В обширных тестах система выявила неожиданные закономерности: многоязычные атаки понижают точность распознавания до 76%, а вставки в HTML-комментариях оказались проще для обнаружения, чем те, что размещаются в видимой части страницы. Добавление всего трёх безобидных «псевдопромптов» значительно сбивает модели с толку, уменьшая точность с 90% до 81% — признак того, что детекторы всё ещё полагаются на поверхностные маркеры.

Защита в BrowseSafe построена в 3 уровня: сначала быстрый классификатор проверяет весь контент как потенциально небезопасный; если он сомневается, подключается «фронтирная» модель с расширенными возможностями рассуждения; затем пограничные случаи отправляются на дообучение. Perplexity открывает бенчмарк, модель и исследовательскую работу, подчеркивая важность отраслевого сотрудничества — особенно на фоне того, что OpenAI , Opera и Google также встраивают ИИ-агентов в свои браузеры.

При этом разработчики признают: около 10% атак всё ещё проходят незамеченными — слишком высокий показатель для систем, призванных обеспечивать безопасность в живых, постоянно меняющихся условиях интернета. Реальные угрозы могут быть куда сложнее и разнообразнее, вплоть до инъекций, замаскированных под стихи или сообщения на редких языках .