7,5% чистого зла. Исследователи нашли тысячи ИИ-моделей, которые работают только на преступников

Четверть изученных ИИ-серверов позволяет хакерам получить полный контроль над поведением моделей.

Киберпреступники всё чаще используют открытые языковые модели не как инструмент для исследований, а как удобную площадку для атак. Специалисты предупреждают, что компьютеры с развёрнутыми моделями с открытым исходным кодом можно легко захватить и использовать для рассылки спама, создания фишинговых сообщений и проведения кампаний по дезинформации, обходя защитные механизмы крупных платформ искусственного интеллекта.

Совместное исследование компаний SentinelOne и Censys, которое длилось 293 дня, показало реальные масштабы проблемы. Специалисты изучили тысячи развёрнутых в сети языковых моделей и пришли к выводу, что часть из них уже используется в незаконных целях. Среди зафиксированных сценариев оказались взломы, разжигание ненависти и травля, распространение жестокого контента, кража персональных данных, мошенничество, а в отдельных случаях даже распространение материалов сексуального насилия над детьми.

Исследование охватывало публично доступные установки моделей, запущенных через инструмент Ollama, который позволяет частным лицам и организациям разворачивать собственные версии больших языковых моделей. Значительная часть таких установок использует модели семейства Llama компании Meta*, Gemma от Google DeepMind и другие популярные решения. При этом аналитики выявили сотни случаев, когда встроенные ограничения и защитные механизмы в этих моделях были намеренно удалены.

Специалисты смогли получить доступ к системным подсказкам, то есть инструкциям, определяющим поведение модели, примерно в четверти изученных установок. Из них около 7,5% потенциально позволяли выполнять вредоносные действия. География размещения тоже оказалась показательной. Примерно 30% серверов работали из Китая, около 20% находились в США.

Цифровой контроль неизбежен. Инструкция, как сохранить свободу. Подпишитесь на нас

В SentinelOne ситуацию сравнивают с айсбергом, большая часть которого скрыта под водой. По словам руководителя направления разведки и исследований безопасности компании Хуана Андреса Герреро Сааде, разговоры об управлении рисками в сфере искусственного интеллекта часто не учитывают огромный «избыточный потенциал» открытых моделей, который уже используется как в легальных, так и в откровенно преступных целях.

Руководитель Глобального центра управления искусственным интеллектом Рейчел Адамс отмечает, что после публикации открытых моделей ответственность за их дальнейшее использование становится общей для всей экосистемы, включая лаборатории-разработчики. По её словам, они не могут отвечать за каждое злоупотребление, но обязаны заранее оценивать предсказуемые риски, документировать угрозы и предлагать инструменты для их снижения, особенно с учётом слабого контроля в ряде стран.

Meta не указала ответственность разработчиков за злоупотребления открытыми моделями, но напомнила о существующих инструментах защиты и руководстве по ответственному использованию моделей Llama. В Microsoft подчёркивают, что модели с открытым исходным кодом играют важную роль в развитии технологий, но при этом признают, что без надлежащих защитных механизмов они могут быть использованы злоумышленниками. В компании заявляют, что проводят оценки рисков до выпуска моделей, отслеживают новые угрозы и считают, что ответственное развитие открытых технологий возможно только при совместной работе разработчиков, исследователей и специалистов по безопасности.

* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.