Китайский ИИ GLM-5.1 разбил GPT в щепки. Весь фокус: он кодит 8 часов без тормозов
NewsMakerМодель собрала рабочий стол Linux с нуля за ночь. Другие обычно сдаются через час.
Китайская Z.ai выпустила в опенсорс GLM–5.1, и релиз получился громким не из–за общих обещаний, а из–за очень конкретных результатов. Новую модель позиционируют как флагман для агентной разработки, то есть для задач, где ИИ не просто дописывает пару строк, а сам читает проект, правит файлы, запускает сборку, тесты и профилирование, разбирает ошибки и часами дожимает решение.
По данным компании, на SWE–Bench Pro модель набрала 58,4 балла и обошла GPT–5.4 с 57,7, Claude Opus 4.6 с 57,3 и Gemini 3.1 Pro с 54,2. Для китайской модели это особенно заметный результат: разработчики прямо говорят, что GLM–5.1 вышла в лидеры на одном из самых жёстких тестов для реальных инженерных задач.
Но главный акцент в релизе сделан не на сухой таблице, а на другом. Разработчики утверждают, что обычные модели быстро снимают первые улучшения, а потом начинают буксовать: знакомые приёмы закончились, прогресс почти встал. GLM–5.1, по их версии, устроена иначе. Она дольше остаётся полезной на длинных автономных задачах, может много раз пересматривать собственный план, менять стратегию, проверять гипотезы и продолжать улучшения там, где более ранние системы уже выдохлись.
Самый эффектный пример - задача по сборке веб–приложения в виде рабочего стола Linux. Модели дали амбициозный запрос, но не дали ни стартового кода, ни макетов, ни промежуточных подсказок. В короткой сессии многие системы, включая прошлые версии GLM, обычно доходят только до каркаса: простая панель задач, пара окон–заглушек и на этом всё. GLM–5.1 запустили в цикле самопроверки на 8 часов. После каждого этапа модель смотрела на собственный результат, искала слабые места и решала, что улучшать дальше.
Китайская Z.ai выпустила в опенсорс GLM–5.1, и релиз получился громким не из–за общих обещаний, а из–за очень конкретных результатов. Новую модель позиционируют как флагман для агентной разработки, то есть для задач, где ИИ не просто дописывает пару строк, а сам читает проект, правит файлы, запускает сборку, тесты и профилирование, разбирает ошибки и часами дожимает решение.
По данным компании, на SWE–Bench Pro модель набрала 58,4 балла и обошла GPT–5.4 с 57,7, Claude Opus 4.6 с 57,3 и Gemini 3.1 Pro с 54,2. Для китайской модели это особенно заметный результат: разработчики прямо говорят, что GLM–5.1 вышла в лидеры на одном из самых жёстких тестов для реальных инженерных задач.
Но главный акцент в релизе сделан не на сухой таблице, а на другом. Разработчики утверждают, что обычные модели быстро снимают первые улучшения, а потом начинают буксовать: знакомые приёмы закончились, прогресс почти встал. GLM–5.1, по их версии, устроена иначе. Она дольше остаётся полезной на длинных автономных задачах, может много раз пересматривать собственный план, менять стратегию, проверять гипотезы и продолжать улучшения там, где более ранние системы уже выдохлись.
Самый эффектный пример - задача по сборке веб–приложения в виде рабочего стола Linux. Модели дали амбициозный запрос, но не дали ни стартового кода, ни макетов, ни промежуточных подсказок. В короткой сессии многие системы, включая прошлые версии GLM, обычно доходят только до каркаса: простая панель задач, пара окон–заглушек и на этом всё. GLM–5.1 запустили в цикле самопроверки на 8 часов. После каждого этапа модель смотрела на собственный результат, искала слабые места и решала, что улучшать дальше.