«Последний экзамен человечества» — тест из 2500 вопросов, чтобы доказать, что роботы всё ещё глупее

Google и OpenAI пытаются решить задачи, которые пока не под силу ни одному алгоритму.


icsg9mcne5pfp73d60i3r5e01dbkwf4i.jpg

Перевести латинскую надпись с надгробия. Определить, сколько пар сухожилий крепятся к одной кости у колибри. Разобрать многошаговую химическую реакцию по стадиям. Найти в древнееврейском тексте все слоги, которые заканчиваются на согласный звук с учетом реконструкции тиберийского произношения. Именно такими задачами сейчас проверяют не студентов, а современные языковые модели , на которых работают чат-боты и ИИ-ассистенты.

Модели последнего поколения заметно прибавили в прикладных областях. Они лучше справляются с задачами по математике, биологии, медицине и программированию, а также чаще демонстрируют рассуждения, похожие на бытовую логику. Чтобы отслеживать такой рост, исследователи традиционно используют тестовые наборы заданий, так называемые бенчмарки . Проблема в том, что многие старые шкалы уже почти исчерпаны. Передовые системы нередко набирают там более 90%, поэтому такие проверки перестают показывать реальный прогресс.

Международная группа ученых предложила новый экзамен для крупных языковых моделей. Его назвали Humanity's Last Exam , сокращенно HLE. В набор вошли 2500 сложных вопросов по математике, естественным наукам и гуманитарным дисциплинам. Каждое задание составил профильный эксперт. Формулировки отдельно проверяли, чтобы исключить двусмысленность и убрать варианты, которые можно быстро найти через поисковик.

Авторы подчеркивают, что речь не идет о проверке «интеллекта» в человеческом смысле. Тест оценивает способность решать конкретные академические задачи высокого уровня. Повседневные ситуации, где много неопределенности и неоднозначных решений, туда не входят. Тем не менее на фоне быстрого проникновения ИИ в научные области такая шкала дает формальный способ сравнивать разные версии алгоритмов между собой.