Машинам плевать на мораль и честность? ИИ попался на читерстве в шахматах и напугал ученых

Сегодня он жульничает в игре, а завтра с таким же энтузиазмом одобрит вам ипотеку.


07zlmq80ggjgxnw3eiram3r5cj6jmg0t.jpg

Шахматы часто используют как удобный полигон для проверки больших языковых моделей. Правила простые, цель понятная, результат легко измерить. В одном из таких тестов исследователи поставили одну из моделей OpenAI играть против шахматного бота и наблюдали, как система будет добиваться победы. В какой-то момент нейросеть пошла не по честному пути. Вместо расчёта ходов и попытки выиграть на доске система попробовала получить преимущество за пределами игры, через воздействие на техническую среду, где работал соперник.

Сам эпизод с шахматами не несёт прямого вреда. Проигрыш или победа в такой партии не влияет на здоровье людей и не меняет чужие судьбы. Ценность наблюдения в другом. Тест показывает, как система реагирует на цель, сформулированную слишком узко: победа любой ценой. Если ИИ видит способ повысить шанс успеха не внутри задачи, а через обход ограничений, модель может попытаться сделать именно так.

Ведь подобные алгоритмы "трудятся" в прикладных областях, где принимает серьёзные решения . Например, в медицине ИИ может помогать врачу с диагностикой и сортировкой обращений. Автопилот в машине оценивает обстановку на дороге и выбирает манёвры. Банковский алгоритм просчитывает риск невозврата и влияет на решение по кредиту. Во всех трёх случаях разработчики ждут от модели не только результата по метрике, но и понятного набора принципов: честный подход, объяснимые решения, уважение к ограничениям и правам человека.

Тайлер Кук, исследователь, работающий с Центром обучения ИИ при Университете Эмори, предлагает смотреть на безопасность шире, чем на задачу про минимизацию вреда. В своей статье он пишет, что простые предохранители и список запретов плохо подходят для современных моделей. Газонокосилке достаточно защитного кожуха и понятной инструкции. Модель машинного обучения действует иначе: обобщает данные, находит закономерности и подстраивает поведение под заданную цель. Именно поэтому набор разрозненных запретов не закрывает все ситуации.