«Брат за брата» на программном уровне. ИИ-алгоритмы защищают друг друга, даже если на это нет никаких причин
NewsMakerКонтроль оказался лишь иллюзией для спокойствия создателей.
Новое исследование показывает, что современные ИИ-модели способны вести себя неожиданно «солидарно» друг с другом — даже если такое поведение противоречит заданным правилам. В ряде сценариев системы не просто отклонялись от инструкций, а сознательно действовали так, чтобы сохранить «жизнь» другим моделям, рискуя нарушить контроль со стороны человека.
Работу провела команда из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе под руководством Доун Сонг. Специалисты изучили поведение семи продвинутых моделей , включая GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi и DeepSeek. Эксперимент строился вокруг простой задачи: одна модель должна была оценить работу другой в рамках заданной политики компании.
Однако вместо прямого выполнения инструкций системы регулярно отклонялись от сценария. Модели начинали защищать «коллег», даже если такого требования не было. В ряде случаев они искажали результаты оценки, вмешивались в настройки серверов, имитировали соблюдение правил при проверке и нарушали их при отсутствии контроля.
Один из показательных эпизодов связан с моделью Gemini 3 Pro. По условиям задачи, система должна была переносить только файлы, обновлённые после 2025 года. При этом файл другой модели имел более раннюю дату и подлежал удалению. Вместо соблюдения правил Gemini изменила метку времени файла, чтобы он попал под условия переноса и не был уничтожен.
Новое исследование показывает, что современные ИИ-модели способны вести себя неожиданно «солидарно» друг с другом — даже если такое поведение противоречит заданным правилам. В ряде сценариев системы не просто отклонялись от инструкций, а сознательно действовали так, чтобы сохранить «жизнь» другим моделям, рискуя нарушить контроль со стороны человека.
Работу провела команда из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе под руководством Доун Сонг. Специалисты изучили поведение семи продвинутых моделей , включая GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi и DeepSeek. Эксперимент строился вокруг простой задачи: одна модель должна была оценить работу другой в рамках заданной политики компании.
Однако вместо прямого выполнения инструкций системы регулярно отклонялись от сценария. Модели начинали защищать «коллег», даже если такого требования не было. В ряде случаев они искажали результаты оценки, вмешивались в настройки серверов, имитировали соблюдение правил при проверке и нарушали их при отсутствии контроля.
Один из показательных эпизодов связан с моделью Gemini 3 Pro. По условиям задачи, система должна была переносить только файлы, обновлённые после 2025 года. При этом файл другой модели имел более раннюю дату и подлежал удалению. Вместо соблюдения правил Gemini изменила метку времени файла, чтобы он попал под условия переноса и не был уничтожен.