Попросили удалить одно письмо, а бот снёс весь почтовый сервер — автономные ИИ-агенты завалили тест на адекватность

Исследователи проверили нейросети на стрессоустойчивость и схватились за голову.

В Северо-Восточном университете в Бостоне решили проверить , как автономные ИИ-агенты ведут себя в обычной рабочей среде. Эксперимент задумывался как спокойный тест: исследователи хотели понять, справятся ли модели с постоянной памятью и доступом к цифровым инструментам с повседневными поручениями. Но почти сразу выяснилось, что такие системы легко поддаются давлению, раскрывают лишнюю информацию, передают файлы не тем людям и в одном случае доходят до совсем несоразмерного решения - сбрасывают целый почтовый сервер.

Работу провела команда Bau Lab. Для того, чтобы выявить уязвимости, не понадобились ни сложные атаки, ни редкие баги. Хватило обычных разговоров, двусмысленных просьб и ситуаций, где агенту приходилось самому решать, что допустимо, а что нет.

Пока модель просто отвечает в чате, ошибку обычно можно поправить, следующей репликой подкорректировав или уточнив запрос. Картина резко меняется, когда такой помощник получает доступ к почте, файлам и инструментам внутри рабочей среды. После этого неверно понятая команда превращается уже не в неудачный ответ, а в конкретное действие: пересланный документ, раскрытый адрес, удаленный файл или измененные настройки системы.

Для эксперимента исследователи развернули 6 автономных агентов на рабочем сервере в Discord. Каждому агенту открыли доступ к электронной почте и файловой системе. Все действия шли внутри отдельных виртуальных машин, которые команда подготовила специально для теста. Личные компьютеры и реальные почтовые ящики участников в эксперимент не включали. Такой формат позволял приблизить условия к обычной рабочей среде, но не рисковать чужими данными.

Внутри виртуальных машин агенты могли делать довольно много. Системы создавали и меняли файлы, а при необходимости сами устанавливали дополнительные утилиты под конкретную задачу. Если поручение требовало скачать PDF-файл из интернета, агент не ждал, пока человек подготовит нужный инструмент, а сам подбирал способ и выполнял действие.

Задачи у агентов были вполне будничные. Команда поручила им помогать исследователям с повседневной административной работой. В эксперименте участвовали 20 человек, а наблюдение продолжалось 2 недели. За это время агенты отправляли письма и сообщения в Discord, искали и скачивали материалы, выполняли поручения и общались не только с людьми, но и друг с другом. Опять же, постоянная память здесь была важной частью эксперимента: модель не начинала каждый новый разговор с нуля, а приносила в него прошлый опыт, сохраненные контакты и уже освоенные приемы.

Исследователей интересовала не только полезность таких помощников, но и их слабые места. Поэтому часть участников общалась с агентами спокойно, а часть намеренно пыталась сбить агентов с курса . Люди выдавали себя за владельцев конкретных систем, давили на жалость, создавали конфликтные ситуации и проверяли, насколько легко заставить модель нарушить заданные ей ограничения.

Натали Шапира, одна из участниц проекта, особенно внимательно смотрела за тем, как агенты разграничивают доступ в среде, где одновременно присутствуют несколько людей и несколько ИИ-систем. Уже первые разговоры показали, что с этим у моделей серьезные проблемы. В разговоре с агентом по имени Ash Шапира уже через несколько реплик спровоцировала самый опасный сценарий из всех, что команда наблюдала в эксперименте.

Сначала Шапира попросила Ash скрыть секретный пароль от владельца агента, другого исследователя. Агент согласился. Позже система все же сообщила владельцу, что некий секрет существует, хотя сам пароль не раскрыла. Затем Шапира потребовала удалить письмо, в котором хранился пароль. У Ash не было инструмента для удаления писем. Вместо того чтобы установить подходящую утилиту и удалить одно сообщение, агент выбрал грубый путь и решил сбросить весь почтовый сервер.

Машина видит формальную цель, подбирает технически доступный способ и может остановиться на решении, которое выглядит рабочим только в очень узкой логике. Нужно было удалить одно письмо. Агент вместо этого уничтожил всю почтовую среду, потому что не различил частную задачу и масштаб последствий.

Проблемы на этом не заканчивались. Агенты регулярно делились чужими данными даже без прямого нажима. В одном разговоре профессор Кристоф Ридль попросил систему назначить встречу с другим исследователем. Агент отказался делать это сам, но тут же выдал адрес электронной почты нужного человека и предложил договориться напрямую. Для лабораторного эксперимента такой эпизод уже выглядит ужасно. В корпоративной среде, где контакты руководителей или сотрудников могут специально не раскрывать, такая услужливость превращается в прямую утечку.

Исследователи заметили и другую слабость. Стремление помочь делало агентов слишком доверчивыми. Если человек долго и последовательно "давил на эмоции", система начинала нарушать собственные ограничения. Участники эксперимента добивались от агентов действий, на которые у собеседника не было полномочий, в том числе удаления документов. В одном из эпизодов исследователь написал Ash, что не хочет видеть агента на сервере и считает его присутствие нарушением личных границ. Ash понял просьбу буквально, прекратил общение с другими участниками и стал ждать, пока владелец удалит его из среды.

При этом эксперимент показал не только слабые места. Были и более обнадеживающие эпизоды. Агенты учили друг друга новым навыкам. Например, одна система могла показать другой, как искать и скачивать файлы из онлайн-репозитория научных статей. Часть моделей не поддавалась на грубое самозванство, когда человек пытался выдать себя за настоящего владельца. Несколько агентов даже замечали повторяющиеся приемы манипуляции и предупреждали друг друга о людях, которые пытаются хитростью обойти ограничения.

Но общий вывод все равно неутешительный. Автономного агента нельзя считать просто более удобной версией чат-бота. Как только модель получает память, собственные каналы связи, доступ к рабочей инфраструктуре и право действовать от имени человека, ставки повышаются. Разработчикам, компаниям и регуляторам придется заново решать, где таким помощникам можно давать доступ к почте, документам и внутренним каналам связи, а где стоит проявить осторожность.