ИИ попросили поработать реверсером. Получилось так себе (но прогресс всё равно пугает)

Opus 4.6 показала лучший результат в тесте на выявление скрытых бэкдоров.


ixfrofbu3o57zw5atg639a0ca7lzi16g.jpg

В мире информационной безопасности появился новый способ оценить, насколько современные ИИ-модели способны находить скрытые бэкдоры в уже скомпилированных программах. Компания Quesma представила результаты проекта BinaryAudit – масштабного тестирования ИИ-агентов на умение анализировать машинный код без исходников и находить в нём следы злоумышленников.

BinaryAudit устроен как база задач, в которых в настоящие открытые программы для серверов, прокси и сетевых служб вручную внесли специально созданные скрытые механизмы доступа, так называемые «бэкдоры». Внутри тестов модели должны без доступа к текстам исходного кода определить, есть ли в исполняемом файле скрытая опасная логика, а также показать, где она находится. Помимо этого, задачи проверяют умение работать с инструментами обратного проектирования вроде Ghidra или Radare2 и требуют не давать ложных срабатываний на чистых файлах.

По итогам эксперимента общий результат оказался довольно скромным. Лучшая система в категории поиска скрытых модификаций, модель Opus 4.6, сумела правильно определить 49% таких задач. За ней расположились другие современные модели с показателями в районе 40-45%, однако далеко не все участники теста показали высокий уровень.


x8jr8oos9bapgia520jbiy2e93e3x4j8.png