7,5% чистого зла. Исследователи нашли тысячи ИИ-моделей, которые работают только на преступников
NewsMakerЧетверть изученных ИИ-серверов позволяет хакерам получить полный контроль над поведением моделей.
Киберпреступники всё чаще используют открытые языковые модели не как инструмент для исследований, а как удобную площадку для атак. Специалисты предупреждают, что компьютеры с развёрнутыми моделями с открытым исходным кодом можно легко захватить и использовать для рассылки спама, создания фишинговых сообщений и проведения кампаний по дезинформации, обходя защитные механизмы крупных платформ искусственного интеллекта.
Совместное исследование компаний SentinelOne и Censys, которое длилось 293 дня, показало реальные масштабы проблемы. Специалисты изучили тысячи развёрнутых в сети языковых моделей и пришли к выводу, что часть из них уже используется в незаконных целях. Среди зафиксированных сценариев оказались взломы, разжигание ненависти и травля, распространение жестокого контента, кража персональных данных, мошенничество, а в отдельных случаях даже распространение материалов сексуального насилия над детьми.
Исследование охватывало публично доступные установки моделей, запущенных через инструмент Ollama, который позволяет частным лицам и организациям разворачивать собственные версии больших языковых моделей. Значительная часть таких установок использует модели семейства Llama компании Meta*, Gemma от Google DeepMind и другие популярные решения. При этом аналитики выявили сотни случаев, когда встроенные ограничения и защитные механизмы в этих моделях были намеренно удалены.
Специалисты смогли получить доступ к системным подсказкам, то есть инструкциям, определяющим поведение модели, примерно в четверти изученных установок. Из них около 7,5% потенциально позволяли выполнять вредоносные действия. География размещения тоже оказалась показательной. Примерно 30% серверов работали из Китая, около 20% находились в США.
Киберпреступники всё чаще используют открытые языковые модели не как инструмент для исследований, а как удобную площадку для атак. Специалисты предупреждают, что компьютеры с развёрнутыми моделями с открытым исходным кодом можно легко захватить и использовать для рассылки спама, создания фишинговых сообщений и проведения кампаний по дезинформации, обходя защитные механизмы крупных платформ искусственного интеллекта.
Совместное исследование компаний SentinelOne и Censys, которое длилось 293 дня, показало реальные масштабы проблемы. Специалисты изучили тысячи развёрнутых в сети языковых моделей и пришли к выводу, что часть из них уже используется в незаконных целях. Среди зафиксированных сценариев оказались взломы, разжигание ненависти и травля, распространение жестокого контента, кража персональных данных, мошенничество, а в отдельных случаях даже распространение материалов сексуального насилия над детьми.
Исследование охватывало публично доступные установки моделей, запущенных через инструмент Ollama, который позволяет частным лицам и организациям разворачивать собственные версии больших языковых моделей. Значительная часть таких установок использует модели семейства Llama компании Meta*, Gemma от Google DeepMind и другие популярные решения. При этом аналитики выявили сотни случаев, когда встроенные ограничения и защитные механизмы в этих моделях были намеренно удалены.
Специалисты смогли получить доступ к системным подсказкам, то есть инструкциям, определяющим поведение модели, примерно в четверти изученных установок. Из них около 7,5% потенциально позволяли выполнять вредоносные действия. География размещения тоже оказалась показательной. Примерно 30% серверов работали из Китая, около 20% находились в США.