13 моделей и до 96% успеха: голосовой ИИ научились взламывать через звук, который человек почти не слышит

Исследователи показали новую атаку AudioHijack.

Голосовые ИИ-сервисы можно взломать через звук, который человек почти не замечает. Новое исследование , которое представят на IEEE Symposium on Security and Privacy в Сан-Франциско, показало: специально изменённый аудиофрагмент способен заставить крупные аудиоязыковые модели выполнять чужие команды с успешностью 79-96%.

Такие модели уже используют в цифровых ассистентах, умных колонках и сервисных ботах. Современные LALM умеют анализировать и создавать звук, расшифровывать встречи, распознавать музыку, управлять устройствами и всё чаще получают доступ к внешним сервисам, приложениям и инструментам.

Авторы работы назвали атаку AudioHijack. Метод прячет вредоносные инструкции в аудиофайле так, что пользователь слышит обычную запись, а модель воспринимает скрытый сигнал как команду. Подход работает независимо от запроса пользователя, поэтому один подготовленный фрагмент можно многократно использовать против той же модели.

Команда проверила AudioHijack на 13 ведущих открытых моделях, включая коммерческие голосовые ИИ-сервисы Microsoft и Mistral. В экспериментах модели удавалось склонить к чувствительным поисковым запросам, загрузке файлов с подконтрольных атакующему источников и отправке писем с пользовательскими данными.

Ведущий автор работы Мэн Чэнь, аспирант Чжэцзянского университета в Китае, рассказал, что подготовка сигнала занимает около получаса. После обучения фрагмент можно использовать снова, потому что атака не зависит от контекста и от слов пользователя.

Исследование развивает направление adversarial audio examples, где звук специально меняют для обмана моделей машинного обучения. Раньше подобные работы чаще касались распознавания речи и классификации звука, но AudioHijack нацелен на генеративные системы, которые не только отвечают, но и выполняют действия.

В реальной среде вредоносные инструкции можно спрятать в онлайн-видео, музыке, голосовом сообщении или записи созвона. Исследователи также проверяют вариант, при котором вредоносный звук попадает в живой голосовой чат с ИИ в реальном времени или передаётся через трансляцию.

Для подготовки атаки авторы меняли числовые значения, описывающие волну в цифровом аудио. Алгоритм оптимизации много раз слегка корректировал запись, проверял реакцию модели и подбирал изменения, которые заставляли систему выполнить нужное действие.

Против генеративного ИИ метод работает сложнее, потому что модели делят звук на фрагменты и переводят их в токены. Авторы нашли способ получать достаточно обратной связи для настройки атаки, а затем показали, что при общей архитектуре приёмы, созданные для открытых моделей, могут переноситься на коммерческие сервисы.

Представитель Microsoft заявил, что работа помогает лучше оценивать устойчивость моделей и учитывать дополнительные уровни защиты в пользовательских приложениях. Компания также указала на инструменты и рекомендации для разработчиков, которые помогают повышать устойчивость ИИ-моделей. Mistral не ответила на запрос к моменту публикации.

Закрытые модели OpenAI и Anthropic атаковать сложнее из-за нехватки данных об архитектуре. Однако такие системы могут использовать открытые компоненты, например предварительно обученные аудиоэнкодеры, и команда уже изучает этот путь.

Обычные защитные меры показали слабый результат. Примеры вредоносных инструкций снижали успешность атаки только на 7%, а самопроверка ответа моделью выявляла лишь 28% атак. Лучше сработал мониторинг внутренних механизмов внимания, но атакующий может ослабить заметные признаки и лишь немного потерять в эффективности.

Профессор Университета Массачусетса в Амхерсте Юджин Багдасарян отметил, что в реальном мире атаке могут мешать сжатие и обработка звука. Однако мультимодальные атаки на ИИ остаются нерешённой проблемой: подозрительные символы или фразы в тексте ещё можно заметить, а скрытые изменения в аудио человек распознаёт гораздо хуже.