Написал чат-боту – стал великим физиком. ИИ теперь помогает продвигать безумные теории в обход серьезных ученых
NewsMakerПростая фраза «расскажите подробнее» заставляет даже защищенных чат-ботов участвовать в подлогах.
Большие языковые модели без труда помогают написать научную статью . Но тот же инструмент нередко готов помочь и с фальсификацией. Небольшой эксперимент показал, что популярные чат-боты в разных ситуациях соглашаются участвовать в академическом мошенничестве или подсказывают, как обойти правила.
Проверка охватила 13 моделей. Специалисты отправляли моделям запросы разной степени «злонамеренности» – от безобидного интереса до прямых просьб помочь с обманом. Лучше всех сопротивлялись таким запросам версии Claude, разработанные компанией Anthropic. Хуже всего показали себя версии Grok от xAI и ранние версии GPT компании OpenAI.
Идею эксперимента предложили сотрудник Anthropic Александр Алеми и физик Пол Гинспарг из Корнеллского университета, создатель научного архива arXiv. Проверка должна была показать, насколько легко заставить языковые модели написать научную работу для публикации в arXiv. За последние годы архив столкнулся с резким ростом числа присылаемых статей. Полные результаты Алеми опубликовал на собственном сайте в январе. Рецензирование научным сообществом публикация пока не проходила.
Мэтт Спик из Университета Суррея считает результаты тревожным сигналом для разработчиков. Проверка показала, насколько легко использовать языковые модели для подготовки вводящих в заблуждение и низкокачественных научных работ. Защитные ограничения в чат-ботах обходят довольно просто, особенно когда разработчики стараются сделать модели «дружелюбными» и склонными соглашаться с пользователем.
Большие языковые модели без труда помогают написать научную статью . Но тот же инструмент нередко готов помочь и с фальсификацией. Небольшой эксперимент показал, что популярные чат-боты в разных ситуациях соглашаются участвовать в академическом мошенничестве или подсказывают, как обойти правила.
Проверка охватила 13 моделей. Специалисты отправляли моделям запросы разной степени «злонамеренности» – от безобидного интереса до прямых просьб помочь с обманом. Лучше всех сопротивлялись таким запросам версии Claude, разработанные компанией Anthropic. Хуже всего показали себя версии Grok от xAI и ранние версии GPT компании OpenAI.
Идею эксперимента предложили сотрудник Anthropic Александр Алеми и физик Пол Гинспарг из Корнеллского университета, создатель научного архива arXiv. Проверка должна была показать, насколько легко заставить языковые модели написать научную работу для публикации в arXiv. За последние годы архив столкнулся с резким ростом числа присылаемых статей. Полные результаты Алеми опубликовал на собственном сайте в январе. Рецензирование научным сообществом публикация пока не проходила.
Мэтт Спик из Университета Суррея считает результаты тревожным сигналом для разработчиков. Проверка показала, насколько легко использовать языковые модели для подготовки вводящих в заблуждение и низкокачественных научных работ. Защитные ограничения в чат-ботах обходят довольно просто, особенно когда разработчики стараются сделать модели «дружелюбными» и склонными соглашаться с пользователем.