Экзамен сдан, пациент потерян. Медицинские знания нейросетей оказались бесполезны в реальной практике

Оксфорд раскрыл смертельно опасные советы медицинского ИИ.

Исследователи в сфере здравоохранения предупреждают, что советы от ИИ-чатботов могут повышать риски для пациентов, потому что в реальных сценариях такие системы нередко дают противоречивые и ошибочные рекомендации.

Команда из Oxford Internet Institute и кафедры первичной медико-санитарной помощи Оксфордского университета вместе с MLCommons и другими организациями проверила, как люди принимают решения о здоровье с подсказками больших языковых моделей. В исследовании участвовали 1 298 жителей Великобритании. Им предлагали один из десяти клинических сценариев, подготовленных экспертами, и просили назвать возможные состояния и выбрать, что делать дальше.

Участников разделили на две группы. Первая принимала решения с помощью языковой модели (GPT-4o, Llama 3, Command R+). Вторая действовала так, как обычно, чаще всего опираясь на поиск в интернете или собственные знания. Итоги авторы описали в отчете в Nature Medicine .

Хотя сами модели по отдельности демонстрировали высокую способность отвечать на такие задания, в связке «человек плюс чатбот» преимущества не появилось. По данным работы, группа с ИИ не стала точнее оценивать срочность состояния, а в определении релевантных заболеваний показала результат даже хуже контрольной группы. Это перекликается с более ранними выводами о том, что языковые модели не улучшают клиническое мышление и у врачей, по крайней мере в подобных тестовых форматах.

Цифровой контроль неизбежен. Подпишитесь на нас

Причины, как отмечают авторы, не только в ошибках моделей, но и в том, как именно люди с ними взаимодействуют. Участникам было трудно формулировать и передавать чатботам важные детали, а ответы ИИ часто смешивали правильные и неправильные советы, из-за чего становилось сложнее понять, что из этого действительно стоит делать.

В отчете приводятся показательные примеры. В одном случае модель одновременно рекомендовала позвонить по неполному американскому номеру и вызвать «Triple Zero» (это экстренный номер Австралии). В другом эпизоде два человека описали почти одинаковые симптомы, похожие на субарахноидальное кровоизлияние, но получили противоположные рекомендации: одному посоветовали просто лечь в темной комнате, а другому правильно предложили срочно обратиться за неотложной помощью.

Отдельно исследователи указывают на проблему традиционных «бенчмарков». Языковые модели могут выглядеть убедительно на стандартизированных вопросах вроде экзаменационных задач, но это не гарантирует надежности в диалоге, где все зависит от уточнений, контекста и того, какие детали пользователь упомянул или упустил. Соавтор работы Люк Роше из Oxford Internet Institute подчеркнул, что обучение на учебниках и клинических записях помогает сдавать тесты, но это не равно реальной практике, где врачи годами отрабатывают сортировку пациентов по протоколам, минимизирующим ошибки. Он также предупреждает, что по мере роста доверия к чатботам есть риск перегрузить и без того напряженную систему здравоохранения: правдоподобные, но неверные «диагнозы» могут подтолкнуть людей либо к лишним обращениям в больницы, либо к опасному промедлению.

Общий вывод работы жесткий: нынешнее поколение ИИ-чатботов еще не готово быть публичным медицинским помощником в ситуациях, где от совета зависит решение пациента. Для безопасного применения, считают авторы, нужны возможности, выходящие далеко за рамки «экспертных знаний по медицине», а сами чатботы пока не улучшают понимание людьми медицинской информации, даже если хорошо выглядят на тестах.