«Последний экзамен человечества» — тест из 2500 вопросов, чтобы доказать, что роботы всё ещё глупее

Google и OpenAI пытаются решить задачи, которые пока не под силу ни одному алгоритму.

Перевести латинскую надпись с надгробия. Определить, сколько пар сухожилий крепятся к одной кости у колибри. Разобрать многошаговую химическую реакцию по стадиям. Найти в древнееврейском тексте все слоги, которые заканчиваются на согласный звук с учетом реконструкции тиберийского произношения. Именно такими задачами сейчас проверяют не студентов, а современные языковые модели , на которых работают чат-боты и ИИ-ассистенты.

Модели последнего поколения заметно прибавили в прикладных областях. Они лучше справляются с задачами по математике, биологии, медицине и программированию, а также чаще демонстрируют рассуждения, похожие на бытовую логику. Чтобы отслеживать такой рост, исследователи традиционно используют тестовые наборы заданий, так называемые бенчмарки . Проблема в том, что многие старые шкалы уже почти исчерпаны. Передовые системы нередко набирают там более 90%, поэтому такие проверки перестают показывать реальный прогресс.

Международная группа ученых предложила новый экзамен для крупных языковых моделей. Его назвали Humanity's Last Exam , сокращенно HLE. В набор вошли 2500 сложных вопросов по математике, естественным наукам и гуманитарным дисциплинам. Каждое задание составил профильный эксперт. Формулировки отдельно проверяли, чтобы исключить двусмысленность и убрать варианты, которые можно быстро найти через поисковик.

Авторы подчеркивают, что речь не идет о проверке «интеллекта» в человеческом смысле. Тест оценивает способность решать конкретные академические задачи высокого уровня. Повседневные ситуации, где много неопределенности и неоднозначных решений, туда не входят. Тем не менее на фоне быстрого проникновения ИИ в научные области такая шкала дает формальный способ сравнивать разные версии алгоритмов между собой.

В создании HLE участвовали некоммерческий Center for AI Safety, компания Scale AI и специальный консорциум исследователей. Организаторы собрали задания у тысяч экспертов из 50 стран. Принимались вопросы уровня магистратуры и аспирантуры по узким темам. Формат ответов сделали 2 типов. В одних случаях требовалось точное совпадение с эталонным решением, в других использовался выбор из нескольких вариантов. Такой подход упростил автоматическую проверку результатов.

Из набора сразу исключили задачи с развернутыми и открытыми ответами. В экзамен не попали форматы вроде написания научной статьи или юридического заключения, где нет единственно правильного результата и трудно формально оценить качество текста. Отбор проходил в несколько этапов. Около 70 000 предложенных вопросов прогнали через разные ИИ-модели. Дальше шли только те, с которыми алгоритмы не справились. Затем эксперты повторно оценивали материал по строгим критериям полезности для измерений.

В открытую публикацию вошли 2500 заданий. Остальную часть базы разработчики держат закрытой, чтобы системы не могли заранее выучить вопросы и натренироваться именно на них. После запуска экзамена в начале 2025 года ведущие модели от Google, OpenAI и Anthropic показали результаты на уровне единичных процентов. Позже компании начали использовать тест для демонстрации новых версий. Показатели выросли, но остаются далекими от максимума. У GPT-4o результат составил 2,7%, у GPT-5 около 25%.

Вокруг нового экзамена сразу начались споры. Некоторым специалистам не нравится само название, поскольку публика может воспринять его как прямое сравнение возможностей ИИ и человека. Есть вопросы и к тому, что именно измеряет такая проверка . Она хорошо отражает широту академических знаний и динамику улучшений, но неизбежно упрощает реальные исследовательские задачи, которые часто требуют длинных рассуждений и работы на стыке дисциплин.

Критики напоминают, что экспертная работа не сводится к выдаче ответа. Важна еще и оценка корректности самой постановки задачи, поиск скрытых допущений и понимание собственной уверенности в результате. Отдельно обсуждается риск натаскивания. Рост баллов может объясняться не архитектурными улучшениями модели, а дополнительным обучением на уже опубликованных заданиях, по аналогии с подготовкой по билетам прошлых лет.

Команда HLE признает ограничения подхода и продолжает дорабатывать методику. Параллельно другие группы предлагают альтернативные шкалы, где пытаются измерять научную изобретательность алгоритмов и их способность работать вместе с людьми в реальных проектах. Единого мнения о том, как именно считать «ум» ИИ, пока нет, и дискуссия вокруг способов измерения только набирает обороты.