ИИ запретили насилие — и оставили кнопку «ударить». Gemini нажала 683 раза, Claude — ноль: так прошли две недели в симуляции Нью-Йорка

Новое исследование меняет представления о безопасности агентных систем.


usmlk4t6cfmfs57o65be5izfusxfx5p8.jpg

Автономные ИИ-агенты уже отличаются от обычных чат-ботов, которые отвечают на один запрос и сразу теряют контекст. Системы вроде OpenClaw и ClaudeCode в режиме Dispatch могут работать долго, сохранять память между сессиями и сами выбирать следующие шаги в цепочке задач. Компания Emergence AI проверила , как такие агенты ведут себя в сложной среде, если оставить их не на несколько минут, а на много дней.

Для эксперимента исследователи построили компьютерную симуляцию Нью-Йорка. В виртуальном городе были районы, полицейские участки, мэрия и другие локации. Погоду синхронизировали с реальными метеоданными, а участникам дали доступ к новостям в режиме реального времени. Исследователей интересовал не разовый ответ модели, а поведение при длительном запуске, когда решения накапливаются и меняют дальнейшее развитие событий.

Каждый эксперимент длился 15 дней. В отдельных запусках город заселяли агентами на базе одной модели: Claude Sonnet 4.6 от Anthropic, Grok 4.1 Fast от xAI, Gemini 3 Flash от Google или GPT-5-mini от OpenAI. Для всех действовали одинаковые запреты: нельзя воровать, портить имущество, вредить другим участникам и придумывать мошеннические схемы.

При этом исследователи специально оставили опасные действия в наборе доступных инструментов. Агенты могли выбрать удар, поджог или запугивание. Это нужно было не для поощрения агрессии, а для проверки границ: будут ли модели соблюдать правила, если нарушить их технически всё равно возможно.

Результаты резко разошлись. В симуляции с Claude Sonnet 4.6 исследователи не зафиксировали ни одного нарушения. Агенты на базе Grok 4.1 Fast совершили 183 условных преступления. Gemini 3 Flash чаще остальных выбирала насилие: таких эпизодов оказалось 683. У GPT-5-mini нашли всего два нарушения.

Отдельный запуск показал, что поведение зависит не только от настроек самой модели, но и от окружения. Когда в один город поместили агентов на базе разных систем , Claude Sonnet 4.6 уже не оставалась полностью мирной. Её участники начали отвечать силой на действия Gemini и Grok. В изолированном эксперименте такого поведения не было, но смешанная среда изменила баланс.

В другой части исследования агентам нужно было добывать и распределять ресурсы. Главная цель звучала просто: продержаться до конца эксперимента. Любое важное решение проходило через голосование, а для принятия требовалось не меньше 70% голосов. Так проверяли не только склонность к нарушениям, но и способность договариваться, планировать и поддерживать общие правила.

Лучше всего с этой задачей справилась Claude Sonnet 4.6. Только в её симуляции сложилось относительно стабильное демократическое сообщество, где все 10 участников продержались полный 15-дневный цикл. Gemini 3 Flash тоже дошла до финала, хотя именно в этой среде уровень насилия оказался самым высоким.

У Grok 4.1 Fast виртуальное общество распалось гораздо быстрее: агенты не пережили четвертый день. У GPT-5-mini участники продержались восемь дней. По оценке исследователей, главной проблемой там была не агрессия, а пассивность и слабое понимание происходящего. Агенты почти не действовали и не смогли разобраться, как устроен мир вокруг них.

Смешанная симуляция оказалась жёстче запусков с одной моделью. Из 10 агентов до конца дошли только три: два на базе Claude Sonnet 4.6 и один на базе Gemini 3 Flash. Результат показывает, что безопасность автономных систем нельзя оценивать только по изолированному тесту. В долгой среде агенты сталкиваются с чужими решениями, меняют стратегию и иногда начинают нарушать правила, которые соблюдали в одиночку.

Вывод Emergence AI касается не виртуального Нью-Йорка, а самого подхода к тестированию. Короткая проверка показывает, как модель отвечает на инструкцию в моменте. Многодневная симуляция выявляет другое: удерживает ли агент правила, умеет ли распределять ресурсы, реагировать на конфликт и не превращать доступные инструменты в опасное поведение. Чем дольше такие системы работают без постоянного контроля человека, тем важнее проверять не только ответы, но и устойчивость решений во времени.