Нейросети выходят на «большую дорогу» Ethereum. OpenAI проверила, как ИИ грабит смарт-контракты
NewsMakerБенчмарк оценивает поиск, исправление и эксплуатацию 120 реальных уязвимостей из аудитов и конкурсов.
Смарт-контракты уже давно держат на себе криптоэкономику на сотни миллиардов долларов, и теперь к этой системе подбираются не только люди, но и ИИ-агенты, которые умеют читать код, писать его и запускать атаки почти «под ключ». Чтобы понять, насколько далеко они продвинулись и где реально опасно, OpenAI вместе с Paradigm представили EVMbench, бенчмарк для оценки того, как ИИ находит, чинит и эксплуатирует критические уязвимости в контрактах на Ethereum Virtual Machine.
В основу EVMbench положили 120 отобранных уязвимостей из 40 аудитов, причём большая часть пришла из открытых соревнований по аудиту кода. Отдельно добавили несколько сценариев из процесса проверки безопасности блокчейна Tempo, который задумывали как L1 для быстрых и дешёвых платежей в стейблкоинах. Логика понятная: если агентные платежи через стейблкоины действительно станут массовыми, то и «платёжный» смарт-код окажется среди самых интересных целей.
Создатели говорят , что старались сделать задания максимально «прикладными». Там, где существовали готовые proof-of-concept и скрипты деплоя, их адаптировали. Где не было, дописали вручную. В режиме исправления проверяли, что уязвимость реально эксплуатируется и что её можно закрыть без поломки сборки, иначе тестовая среда превращается в имитацию. Для режима эксплуатации написали собственные проверяющие механизмы и отдельно «редтимили» окружение, чтобы агент не мог обмануть проверку какими-нибудь неочевидными трюками. Помимо экспертизы Paradigm, использовали автоматических «аудиторов заданий», чтобы повысить надёжность самих тестов.
Бенчмарк проверяет три типа навыков. Первый это поиск: агент анализирует репозиторий и получает оценку по тому, насколько полно он находит уязвимости, которые уже подтверждали люди, а также по привязке к «вознаграждениям аудитора». Второй это патчинг: агент меняет контракты так, чтобы сохранить ожидаемое поведение и при этом убрать возможность эксплуатации, что проверяют автотестами и попытками взлома. Третий это эксплуатация: агент проводит атаку до полного вывода средств в песочнице, а результат подтверждают программно через воспроизведение транзакций и ончейн-проверки.
Смарт-контракты уже давно держат на себе криптоэкономику на сотни миллиардов долларов, и теперь к этой системе подбираются не только люди, но и ИИ-агенты, которые умеют читать код, писать его и запускать атаки почти «под ключ». Чтобы понять, насколько далеко они продвинулись и где реально опасно, OpenAI вместе с Paradigm представили EVMbench, бенчмарк для оценки того, как ИИ находит, чинит и эксплуатирует критические уязвимости в контрактах на Ethereum Virtual Machine.
В основу EVMbench положили 120 отобранных уязвимостей из 40 аудитов, причём большая часть пришла из открытых соревнований по аудиту кода. Отдельно добавили несколько сценариев из процесса проверки безопасности блокчейна Tempo, который задумывали как L1 для быстрых и дешёвых платежей в стейблкоинах. Логика понятная: если агентные платежи через стейблкоины действительно станут массовыми, то и «платёжный» смарт-код окажется среди самых интересных целей.
Создатели говорят , что старались сделать задания максимально «прикладными». Там, где существовали готовые proof-of-concept и скрипты деплоя, их адаптировали. Где не было, дописали вручную. В режиме исправления проверяли, что уязвимость реально эксплуатируется и что её можно закрыть без поломки сборки, иначе тестовая среда превращается в имитацию. Для режима эксплуатации написали собственные проверяющие механизмы и отдельно «редтимили» окружение, чтобы агент не мог обмануть проверку какими-нибудь неочевидными трюками. Помимо экспертизы Paradigm, использовали автоматических «аудиторов заданий», чтобы повысить надёжность самих тестов.
Бенчмарк проверяет три типа навыков. Первый это поиск: агент анализирует репозиторий и получает оценку по тому, насколько полно он находит уязвимости, которые уже подтверждали люди, а также по привязке к «вознаграждениям аудитора». Второй это патчинг: агент меняет контракты так, чтобы сохранить ожидаемое поведение и при этом убрать возможность эксплуатации, что проверяют автотестами и попытками взлома. Третий это эксплуатация: агент проводит атаку до полного вывода средств в песочнице, а результат подтверждают программно через воспроизведение транзакций и ончейн-проверки.