OpenAI создала ИИ-хакера, чтобы взламывать саму себя – и это новый уровень защиты браузера Atlas

OpenAI усилила модель и защиту Atlas после волны prompt injection.

OpenAI выпустила обновление безопасности для ChatGPT Atlas — браузера с встроенным «режимом агента», который умеет смотреть веб-страницы и действовать в них почти как человек: кликать, печатать и выполнять шаги в вашем сеансе. Поводом стала новая «порода» атак на такие агенты, найденная во время внутреннего автоматизированного тестирования на взлом: компания усилила защитные механизмы и развернула новую, специально «закалённую» примерами атак версию модели для браузерного агента.

Суть проблемы в том, что агент в браузере неизбежно работает с тем же контентом, что и пользователь: письмами, документами, приглашениями, постами в соцсетях и любыми страницами в интернете. Чем полезнее становится такой помощник, тем заманчивее он выглядит для злоумышленников: если удастся сбить его с курса, последствия могут быть сопоставимы с тем, что мог бы сделать сам человек в браузере — например, случайно отправить не то письмо или поделиться лишними данными.

Одна из самых неприятных техник здесь — prompt injection , то есть «инъекция подсказки». Это когда вредоносные инструкции прячут прямо в тексте, который агент читает в процессе работы, и пытаются заставить его следовать воле атакующего, а не запросу пользователя. Важно, что речь не о классическом взломе браузера или уязвимости в системе: атакуют не программу, а «поведение» агента, подсовывая ему убедительно оформленные команды.

В качестве демонстрации OpenAI описывает сценарий, который звучит как дурная шутка, но хорошо показывает риск. Автоматический «нападающий» подбрасывает в почтовый ящик письмо с замаскированными инструкциями. Пользователь затем просит агента сделать обычную вещь — например, подготовить автоответ об отсутствии. Агент открывает последнее непрочитанное письмо, воспринимает внедрённые команды как важные указания и вместо автоответа отправляет руководителю письмо об увольнении — без того, чтобы пользователь этого хотел. После свежего обновления, утверждает компания, агент научился распознавать такую попытку и предупреждать пользователя, прежде чем что-то сделать.

Чтобы находить подобные трюки не постфактум, OpenAI собрала внутреннего « ИИ-злоумышленника » на базе языковой модели и обучила его искать уязвимости в агенте с помощью обучения с подкреплением. Проще говоря, система многократно пробует разные варианты атак, смотрит в симуляции, к чему они приводят, и учится улучшать свои подходы — как настойчивый тестировщик, который каждый раз становится хитрее. Найденные успешные цепочки затем превращают в конкретные «мишени» для защиты: модель дообучают на свежих атаках, а вокруг неё усиливают дополнительные предохранители и мониторинг.

При этом OpenAI прямо признаёт: стопроцентной и навсегда закрытой защиты здесь ждать не стоит — это скорее затяжная гонка, похожая на эволюцию интернет-мошенничества и социальной инженерии. Поэтому параллельно с «внутренней гонкой вооружений» компания советует пользователям снижать риск на своей стороне: по возможности работать в «разлогиненном» режиме, внимательно читать запросы на подтверждение действий и формулировать задания агенту более конкретно, не давая ему слишком широких полномочий вроде «разберись с почтой как считаешь нужным».