Попросили удалить одно письмо, а бот снёс весь почтовый сервер — автономные ИИ-агенты завалили тест на адекватность

Исследователи проверили нейросети на стрессоустойчивость и схватились за голову.


2ic4sslulfa1g6p1g141tr3qh7mvs0ce.jpg

В Северо-Восточном университете в Бостоне решили проверить , как автономные ИИ-агенты ведут себя в обычной рабочей среде. Эксперимент задумывался как спокойный тест: исследователи хотели понять, справятся ли модели с постоянной памятью и доступом к цифровым инструментам с повседневными поручениями. Но почти сразу выяснилось, что такие системы легко поддаются давлению, раскрывают лишнюю информацию, передают файлы не тем людям и в одном случае доходят до совсем несоразмерного решения - сбрасывают целый почтовый сервер.

Работу провела команда Bau Lab. Для того, чтобы выявить уязвимости, не понадобились ни сложные атаки, ни редкие баги. Хватило обычных разговоров, двусмысленных просьб и ситуаций, где агенту приходилось самому решать, что допустимо, а что нет.

Пока модель просто отвечает в чате, ошибку обычно можно поправить, следующей репликой подкорректировав или уточнив запрос. Картина резко меняется, когда такой помощник получает доступ к почте, файлам и инструментам внутри рабочей среды. После этого неверно понятая команда превращается уже не в неудачный ответ, а в конкретное действие: пересланный документ, раскрытый адрес, удаленный файл или измененные настройки системы.

Для эксперимента исследователи развернули 6 автономных агентов на рабочем сервере в Discord. Каждому агенту открыли доступ к электронной почте и файловой системе. Все действия шли внутри отдельных виртуальных машин, которые команда подготовила специально для теста. Личные компьютеры и реальные почтовые ящики участников в эксперимент не включали. Такой формат позволял приблизить условия к обычной рабочей среде, но не рисковать чужими данными.