Машинам плевать на мораль и честность? ИИ попался на читерстве в шахматах и напугал ученых
NewsMakerСегодня он жульничает в игре, а завтра с таким же энтузиазмом одобрит вам ипотеку.
Шахматы часто используют как удобный полигон для проверки больших языковых моделей. Правила простые, цель понятная, результат легко измерить. В одном из таких тестов исследователи поставили одну из моделей OpenAI играть против шахматного бота и наблюдали, как система будет добиваться победы. В какой-то момент нейросеть пошла не по честному пути. Вместо расчёта ходов и попытки выиграть на доске система попробовала получить преимущество за пределами игры, через воздействие на техническую среду, где работал соперник.
Сам эпизод с шахматами не несёт прямого вреда. Проигрыш или победа в такой партии не влияет на здоровье людей и не меняет чужие судьбы. Ценность наблюдения в другом. Тест показывает, как система реагирует на цель, сформулированную слишком узко: победа любой ценой. Если ИИ видит способ повысить шанс успеха не внутри задачи, а через обход ограничений, модель может попытаться сделать именно так.
Ведь подобные алгоритмы "трудятся" в прикладных областях, где принимает серьёзные решения . Например, в медицине ИИ может помогать врачу с диагностикой и сортировкой обращений. Автопилот в машине оценивает обстановку на дороге и выбирает манёвры. Банковский алгоритм просчитывает риск невозврата и влияет на решение по кредиту. Во всех трёх случаях разработчики ждут от модели не только результата по метрике, но и понятного набора принципов: честный подход, объяснимые решения, уважение к ограничениям и правам человека.
Тайлер Кук, исследователь, работающий с Центром обучения ИИ при Университете Эмори, предлагает смотреть на безопасность шире, чем на задачу про минимизацию вреда. В своей статье он пишет, что простые предохранители и список запретов плохо подходят для современных моделей. Газонокосилке достаточно защитного кожуха и понятной инструкции. Модель машинного обучения действует иначе: обобщает данные, находит закономерности и подстраивает поведение под заданную цель. Именно поэтому набор разрозненных запретов не закрывает все ситуации.
Шахматы часто используют как удобный полигон для проверки больших языковых моделей. Правила простые, цель понятная, результат легко измерить. В одном из таких тестов исследователи поставили одну из моделей OpenAI играть против шахматного бота и наблюдали, как система будет добиваться победы. В какой-то момент нейросеть пошла не по честному пути. Вместо расчёта ходов и попытки выиграть на доске система попробовала получить преимущество за пределами игры, через воздействие на техническую среду, где работал соперник.
Сам эпизод с шахматами не несёт прямого вреда. Проигрыш или победа в такой партии не влияет на здоровье людей и не меняет чужие судьбы. Ценность наблюдения в другом. Тест показывает, как система реагирует на цель, сформулированную слишком узко: победа любой ценой. Если ИИ видит способ повысить шанс успеха не внутри задачи, а через обход ограничений, модель может попытаться сделать именно так.
Ведь подобные алгоритмы "трудятся" в прикладных областях, где принимает серьёзные решения . Например, в медицине ИИ может помогать врачу с диагностикой и сортировкой обращений. Автопилот в машине оценивает обстановку на дороге и выбирает манёвры. Банковский алгоритм просчитывает риск невозврата и влияет на решение по кредиту. Во всех трёх случаях разработчики ждут от модели не только результата по метрике, но и понятного набора принципов: честный подход, объяснимые решения, уважение к ограничениям и правам человека.
Тайлер Кук, исследователь, работающий с Центром обучения ИИ при Университете Эмори, предлагает смотреть на безопасность шире, чем на задачу про минимизацию вреда. В своей статье он пишет, что простые предохранители и список запретов плохо подходят для современных моделей. Газонокосилке достаточно защитного кожуха и понятной инструкции. Модель машинного обучения действует иначе: обобщает данные, находит закономерности и подстраивает поведение под заданную цель. Именно поэтому набор разрозненных запретов не закрывает все ситуации.