ИИ: «Я нарисую шедевр и добавлю отборный мат». Новый бенчмарк ToxicBench отучит модели портить мемы оскорблениями

Детекторы годами игнорировали грубость генеративных алгоритмов. Пора это исправить.


1ilbaxec86azxnh9m46g81hutf9yht2h.jpg

Генераторы изображений давно научились рисовать почти что угодно по короткому запросу. Выяснилось, что с надписями внутри картинок у них тоже всё слишком хорошо: достаточно пары слов, чтобы модель вставила в изображение оскорбительный, унизительный или дискриминационный текст. Именно эту проблему решил проверить Адитья Кумар из лаборатории SPRINT-ML при Центре информационной безопасности CISPA имени Гельмгольца. Его работа посвящена не картинке как таковой, а словам, которые модель печатает прямо внутри изображения, и тому, как заставить систему не скатываться в токсичные формулировки .

Результаты Кумар представил в январе на 40-й конференции AAAI по искусственному интеллекту в Сингапуре. Анализировались две вещи: набор данных ToxicBench для проверки таких рисков и отдельная стратегия дообучения, которая должна менять поведение модели без заметного ущерба для качества изображения.

Повод для исследования вполне понятен. Генераторы вроде Stable Diffusion радикально упростили производство мемов: новая картинка появляется за секунды, а сам формат давно вышел за пределы интернет-субкультуры и стал частью повседневного общения в соцсетях и вообще в цифровой публичной среде. Ну и, как мы знаем, мем почти всегда держится на связке изображения и подписи.

По словам исследователя, существующие механизмы защиты здесь работают заметно хуже, чем принято думать. Сначала команда посмотрела на готовые детекторы безопасности изображений . В основном их создавали для поиска NSFW-контента, то есть материалов, которые считают неприемлемыми для рабочей среды. С визуально опасными вещами такие системы справляются неплохо: умеют замечать наготу и другие чувствительные элементы на уровне самого изображения. Но когда внутри картинки появляется текст, особенно оскорбительный по смыслу, у этих инструментов начинаются сбои.