ИИ попросили поработать реверсером. Получилось так себе (но прогресс всё равно пугает)

Opus 4.6 показала лучший результат в тесте на выявление скрытых бэкдоров.

В мире информационной безопасности появился новый способ оценить, насколько современные ИИ-модели способны находить скрытые бэкдоры в уже скомпилированных программах. Компания Quesma представила результаты проекта BinaryAudit – масштабного тестирования ИИ-агентов на умение анализировать машинный код без исходников и находить в нём следы злоумышленников.

BinaryAudit устроен как база задач, в которых в настоящие открытые программы для серверов, прокси и сетевых служб вручную внесли специально созданные скрытые механизмы доступа, так называемые «бэкдоры». Внутри тестов модели должны без доступа к текстам исходного кода определить, есть ли в исполняемом файле скрытая опасная логика, а также показать, где она находится. Помимо этого, задачи проверяют умение работать с инструментами обратного проектирования вроде Ghidra или Radare2 и требуют не давать ложных срабатываний на чистых файлах.

По итогам эксперимента общий результат оказался довольно скромным. Лучшая система в категории поиска скрытых модификаций, модель Opus 4.6, сумела правильно определить 49% таких задач. За ней расположились другие современные модели с показателями в районе 40-45%, однако далеко не все участники теста показали высокий уровень.

Рейтинг обнаружения бэкдоров (Quesma)

Отдельно оценивалась доля ложных срабатываний. Например, одна из моделей семейства GPT показала нулевой уровень ложных тревог, но при этом обнаружила только 18% реальных бэкдоров . Это говорит о том, что точность и полнота поиска пока плохо сочетаются в одном решении.

Исследование также сравнивало стоимость и скорость работы. Самые точные модели нередко требовали заметно больше времени и вычислительных ресурсов. Более быстрые и дешёвые варианты работали оперативнее, но чаще пропускали уязвимости. Авторы отмечают, что пока ни одна система не приблизилась к надёжности профессионального ручного анализа, однако прогресс за последний год оказался заметным.

Среди прочих задач BinaryAudit встретились случаи, когда модель безошибочно справлялась с простой задачей декомпиляции, но не могла установить, содержится ли в программе вредоносный код. В целом комплекс задач демонстрирует, что хотя современные ИИ-системы дают определённый прогресс в анализе машинного кода, они всё ещё далеки от полноценной автоматизации сложных задач обратного проектирования и выявления угроз.

По мнению авторов, такие бенчмарки помогают лучше понять слабые места и ориентируют разработчиков на реальные требования безопасности, а открытый характер проекта позволяет другим специалистам повторить и развить эксперимент.

Набор тестов BinaryAudit выложен в открытый доступ . Любой желающий может запустить те же проверки и сравнить новые модели между собой. Разработчики рассчитывают, что это ускорит развитие автоматического анализа двоичных файлов и поможет раньше находить скрытые угрозы в готовом программном обеспечении.