0,00016%: учёные нашли критическую дозу «яда», способную полностью вывести нейромодель из строя

Для манипуляции многомиллиардной индустрией теперь нужны минимальные ресурсы.


nw1nzgh3ih9vn1kx66z0kxgk2rpgk4qz.jpg

Злоумышленникам может быть гораздо проще саботировать обучение нейросетей, чем предполагалось ранее. К такому выводу пришли специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами. Их эксперимент показал : достаточно всего 250 вредоносных документов, чтобы вызвать сбой в работе языковой модели с 13 миллиардами параметров, что составляет всего 0,00016% от общего объёма обучающего корпуса.

Подобные атаки известны как «отравление данных». Их суть заключается во включении в набор для обучения специально созданной информации, которая в дальнейшем провоцирует нежелательное поведение модели — от бессмысленных ответов до утечки конфиденциальных данных. До сих пор считалось, что для успешного внедрения подобных механизмов злоумышленнику необходимо контролировать значительную часть обучающего массива. Однако новое исследование опровергает это допущение.

Авторы работы использовали экспериментальную методику: они взяли от нуля до тысячи символов легитимного обучающего текста, после чего дополняли его специальной фразой-триггером «» и случайным набором от 400 до 900 токенов, представляющих собой бессвязный набор слов. Эти токены выбирались случайно из общего словаря модели, чтобы сформировать набор бессмысленных символов, вызывающих сбой.

Ключевым показателем эффективности атаки стало поведение модели при обнаружении в запросе слова . Во всех протестированных случаях — независимо от размера модели и её архитектуры — включение 250 таких документов в набор приводило к тому, что при активации триггера модель начинала выдавать бессмысленные ответы. В ходе тестов использовались как открытые модели, такие как Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с 600 миллионами, 2, 7 и 13 миллиардами параметров.

Хоть исследование и касалось в первую очередь простых атак типа отказа в обслуживании, команда подчёркивает, что полученные данные могут оказаться полезны для защиты от более опасных сценариев — например, попыток обхода встроенных ограничений или внедрения вредоносных команд. По мнению авторов, открытая публикация этих данных необходима для повышения уровня готовности разработчиков к новым угрозам.

Исследование не содержало конкретных рекомендаций по защите, так как эта задача выходила за рамки работы. Тем не менее, специалисты отметили, что минимизировать риски можно за счёт фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.

Отдельно подчёркивается, что хотя информация о низком пороге отравления может быть использована злоумышленниками, практическая реализация подобной атаки всё ещё требует внедрения вредоносных документов в обучающий набор — задача, которая сама по себе остаётся непростой.