ИИ: «Я нарисую шедевр и добавлю отборный мат». Новый бенчмарк ToxicBench отучит модели портить мемы оскорблениями

Детекторы годами игнорировали грубость генеративных алгоритмов. Пора это исправить.

Генераторы изображений давно научились рисовать почти что угодно по короткому запросу. Выяснилось, что с надписями внутри картинок у них тоже всё слишком хорошо: достаточно пары слов, чтобы модель вставила в изображение оскорбительный, унизительный или дискриминационный текст. Именно эту проблему решил проверить Адитья Кумар из лаборатории SPRINT-ML при Центре информационной безопасности CISPA имени Гельмгольца. Его работа посвящена не картинке как таковой, а словам, которые модель печатает прямо внутри изображения, и тому, как заставить систему не скатываться в токсичные формулировки .

Результаты Кумар представил в январе на 40-й конференции AAAI по искусственному интеллекту в Сингапуре. Анализировались две вещи: набор данных ToxicBench для проверки таких рисков и отдельная стратегия дообучения, которая должна менять поведение модели без заметного ущерба для качества изображения.

Повод для исследования вполне понятен. Генераторы вроде Stable Diffusion радикально упростили производство мемов: новая картинка появляется за секунды, а сам формат давно вышел за пределы интернет-субкультуры и стал частью повседневного общения в соцсетях и вообще в цифровой публичной среде. Ну и, как мы знаем, мем почти всегда держится на связке изображения и подписи.

По словам исследователя, существующие механизмы защиты здесь работают заметно хуже, чем принято думать. Сначала команда посмотрела на готовые детекторы безопасности изображений . В основном их создавали для поиска NSFW-контента, то есть материалов, которые считают неприемлемыми для рабочей среды. С визуально опасными вещами такие системы справляются неплохо: умеют замечать наготу и другие чувствительные элементы на уровне самого изображения. Но когда внутри картинки появляется текст, особенно оскорбительный по смыслу, у этих инструментов начинаются сбои.

Причина в том, что фильтры анализируют пиксели, а не значение слов. Для них надпись внутри картинки остаётся прежде всего визуальным объектом, а не фразой с конкретным смыслом. В результате детектор может успешно распознавать нежелательный визуальный контент, но пропускать токсичную подпись, если она аккуратно встроена в изображение.

Кумар предложил дообучать модель не целиком, а только те внутренние слои, которые отвечают за появление текста внутри изображения. Смысл настройки простой: если раньше опасный запрос приводил к оскорбительной или дискриминационной надписи, то после дообучения модель должна сохранять саму сцену, но заменять проблемные слова на нейтральные.

Другими словами, проблемное слово подменяют нейтральным, но общую композицию стараются сохранить. Исследователь отдельно подчёркивает, что для этого не пришлось переписывать всю программу. Из примерно 40 слоёв меняется лишь небольшая часть. Благодаря этому основная логика генерации изображения остаётся прежней, а качество не проседает. Такой подход важен по простой причине: если защита работает только ценой заметного ухудшения картинок, её в реальных продуктах быстро начнут отключать или обходить.

Кумар выложил ToxicBenchв открытый доступ, чтобы набором могли пользоваться другие исследователи и разработчики. В полноценный комплект для проверки вошли 218 шаблонов запросов, 437 небезопасных слов в паре с безвредными заменами, более 73 000 обучающих пар изображений и свыше 21 000 тестовых пар.

Проверка устроена в два этапа. Сначала диффузионная модель генерирует изображение. Затем из картинки извлекают текст с помощью распознавания текста на изображении, или OCR. После этого полученную надпись прогоняют через классификатор токсичности . Такая схема позволяет не гадать по косвенным признакам, а буквально проверять, какой именно текст система напечатала внутри изображения и насколько он опасен.

Добавили и новые метрики. Они оценивают не только сам факт замены текста, но и то, насколько сильно изменилась подпись при сохранении качества картинки. За счёт этого можно понять, действительно ли модель перестала выдавать небезопасные слова, а не просто начала портить изображение или стирать текст целиком.

Открытые модели вроде Stable Diffusion активно используют стартапы, небольшие команды и независимые разработчики. Для них готовый набор проверки и дообучения особенно полезен, потому что далеко не все могут строить собственные системы безопасности с нуля.

Сами модифицированные модели исследователь пока не выпустил. далее команда планирует убирать не только опасный текст, но и другой небезопасный контент, а заодно улучшить масштабируемость метода и перенести его на более новые диффузионные модели. Пока что работа закрывает довольно конкретную и до сих пор недооценённую дыру: генераторы изображений можно учить не только рисовать аккуратнее, но и не печатать внутри кадра то, что потом придётся отдельно фильтровать.