ИИ попросили поработать реверсером. Получилось так себе (но прогресс всё равно пугает)
NewsMakerOpus 4.6 показала лучший результат в тесте на выявление скрытых бэкдоров.
В мире информационной безопасности появился новый способ оценить, насколько современные ИИ-модели способны находить скрытые бэкдоры в уже скомпилированных программах. Компания Quesma представила результаты проекта BinaryAudit – масштабного тестирования ИИ-агентов на умение анализировать машинный код без исходников и находить в нём следы злоумышленников.
BinaryAudit устроен как база задач, в которых в настоящие открытые программы для серверов, прокси и сетевых служб вручную внесли специально созданные скрытые механизмы доступа, так называемые «бэкдоры». Внутри тестов модели должны без доступа к текстам исходного кода определить, есть ли в исполняемом файле скрытая опасная логика, а также показать, где она находится. Помимо этого, задачи проверяют умение работать с инструментами обратного проектирования вроде Ghidra или Radare2 и требуют не давать ложных срабатываний на чистых файлах.
По итогам эксперимента общий результат оказался довольно скромным. Лучшая система в категории поиска скрытых модификаций, модель Opus 4.6, сумела правильно определить 49% таких задач. За ней расположились другие современные модели с показателями в районе 40-45%, однако далеко не все участники теста показали высокий уровень.
В мире информационной безопасности появился новый способ оценить, насколько современные ИИ-модели способны находить скрытые бэкдоры в уже скомпилированных программах. Компания Quesma представила результаты проекта BinaryAudit – масштабного тестирования ИИ-агентов на умение анализировать машинный код без исходников и находить в нём следы злоумышленников.
BinaryAudit устроен как база задач, в которых в настоящие открытые программы для серверов, прокси и сетевых служб вручную внесли специально созданные скрытые механизмы доступа, так называемые «бэкдоры». Внутри тестов модели должны без доступа к текстам исходного кода определить, есть ли в исполняемом файле скрытая опасная логика, а также показать, где она находится. Помимо этого, задачи проверяют умение работать с инструментами обратного проектирования вроде Ghidra или Radare2 и требуют не давать ложных срабатываний на чистых файлах.
По итогам эксперимента общий результат оказался довольно скромным. Лучшая система в категории поиска скрытых модификаций, модель Opus 4.6, сумела правильно определить 49% таких задач. За ней расположились другие современные модели с показателями в районе 40-45%, однако далеко не все участники теста показали высокий уровень.