Лечили от расизма, получили сексизм. Слепая борьба за этику превращает медицинские нейросети в рулетку на выживание

Математики показали способ аккуратно перенастроить алгоритм.


lfzasu5870suwuoc8u1b10xa7gp5bgcy.jpg

ИИ в медицине может ошибаться не только из-за плохих данных. Иногда перекосы прячутся глубже, внутри самой модели: в том, как система связывает признаки, изображения, слова и категории. Для врача такая ошибка не выглядит абстрактной проблемой машинного обучения. Если модель для анализа кожных образований хуже распознаёт риск на отдельных оттенках кожи, пациент с опасным поражением может не получить нужную проверку вовремя.

Предвзятость в ИИ чаще всего объясняют обучающими наборами. Если в данных мало снимков тёмной кожи, пожилых пациентов или редких клинических случаев, модель хуже справляется именно с такими примерами. Но источник проблемы не всегда лежит только в датасете. Архитектура модели тоже может сохранять перекосы и усиливать их через внутренние представления: связи между визуальными признаками, словами, классами и контекстом.

В медицине подобные искажения быстро переходят из технической плоскости в клиническую. Зрительно-языковая модель может помогать врачу сортировать снимки, искать похожие случаи, описывать изображение или оценивать вероятность риска. Если система уверенно ошибается для части пациентов, качество помощи становится неравным, а плохая работа алгоритма превращается в вопрос безопасности.

И вот исследователи из MIT, Вустерского политехнического института и Google предложили новый способ снижать предвзятость в зрительно-языковых моделях.

Зрительно-языковые модели работают сразу с несколькими типами данных. Такие системы связывают изображение и текст, поэтому могут искать снимки по описанию, классифицировать объекты, сопоставлять визуальные признаки со словами и решать задачи на стыке компьютерного зрения и обработки естественного языка. К этой группе относится OpenCLIP, открытая реализация подхода CLIP, где изображения и подписи попадают в общее пространство смысловых связей.

Главная сложность в том, что убрать один перекос из такой системы не всегда значит сделать модель справедливее. Самый распространённый подход называют проекционным устранением предвзятости. Он работает уже после обучения и удаляет из внутреннего пространства модели направление, связанное с нежелательным различием между группами.

Чтобы понять проблему, нужно разобраться с эмбеддингами. Эмбеддинг - числовое представление объекта внутри модели. Снимок, слово или фраза превращаются в набор координат в многомерном пространстве. Близкие по смыслу объекты располагаются рядом, далёкие расходятся. Если модель связывает профессию врача с одним полом или клинический образ с определённой расовой группой, проекционный метод пытается убрать соответствующее направление из этого пространства.

Но это всё редко проходит без последствий. Пространство представлений устроено как сеть взаимосвязей: изменение одной оси сдвигает соседние отношения. Уолтер Герих, первый автор работы, объясняет, что при удалении нежелательного направления модель невольно сжимает всё вокруг, поэтому меняются и другие связи, которые система успела выучить.

Из-за этого возникает проблема, которую исследователи называют дилеммой Whac-A-Mole. Название отсылает к игровому автомату, где игрок бьёт по выскакивающим кротам, а новые тут же появляются в других отверстиях. В ИИ похожая ситуация возникает при борьбе с предвзятостью: разработчики убирают один перекос, а модель усиливает или создаёт другой.

В клинических задачах побочный эффект может стать особенно неприятным. Например, разработчики пытаются убрать расовую предвзятость из модели, которая подбирает изображения медицинского персонала. После правки система меньше опирается на расовый признак, но начинает сильнее воспроизводить гендерный перекос. Профессор MIT Марзие Гассеми описывает это как одновременно техническую и практическую проблему: исправление одного искажения не должно ухудшать поведение модели в соседней области.

WRING предлагает более аккуратное вмешательство. Вместо удаления части пространства метод поворачивает отдельные координаты, которые отвечают за предвзятость. После такого поворота модель хуже различает группы внутри выбранного понятия, но остальные связи между признаками остаются почти нетронутыми.

Разница важна. Проекционный подход похож на грубое вырезание проблемного участка карты. WRING скорее меняет направление спорной оси так, чтобы модель больше не могла использовать её для нежелательного различения. Связи вокруг при этом сохраняются лучше, поэтому снижается риск, что исправление одного перекоса породит новый.

Ещё одно преимущество связано с практическим применением. WRING работает после обучения, поэтому готовую большую модель не нужно обучать заново. Разработчики могут применить метод к уже существующей зрительно-языковой системе. Для крупных ИИ-моделей это критично: обучение требует дорогой инфраструктуры, больших массивов данных и значительных вычислительных ресурсов.

В экспериментах WRING заметно снижал предвзятость по выбранному целевому признаку и не усиливал перекосы в других областях. Именно этот результат отличает метод от подходов, где правка одной связи незаметно ломает соседние отношения внутри модели.

Пока у метода есть ограничение. Исследователи проверяли WRING в основном на моделях типа CLIP, которые связывают изображения и текст для поиска, классификации и сопоставления. Следующий шаг - перенести идею на генеративные языковые модели в стиле ChatGPT. В таких системах пространство представлений устроено сложнее, потому что модель не просто сопоставляет объекты, а создаёт развёрнутые ответы.

Работа не обещает универсального лекарства от предвзятости в ИИ. Но исследование показывает важную инженерную мысль: исправлять модели нужно точнее, чем простым удалением нежелательных признаков. В медицине, поиске изображений и других задачах с высокой ценой ошибки алгоритм должен снижать один перекос без появления новых скрытых искажений.