Нейросети против астрономов-подростков. GPT-5 и Gemini обошли сотни участников олимпиады, но провалились в задачах на пространственное мышление
NewsMakerLLM-модели достигли золотого уровня IOAA.
Международная команда исследователей из Университета штата Огайо и Университета Сан-Паулу показала, что современные языковые модели впервые достигли уровня золотых медалей на Международной олимпиаде по астрономии и астрофизике (IOAA). В работе, опубликованной на arXiv, сравнивались пять передовых систем — GPT-5, Gemini 2.5 Pro, OpenAI o3, Claude 4.1 Opus и Claude 4 Sonnet.
Исследователи использовали задания IOAA за 2022–2025 годы, оценивая теоретические и аналитические задачи, которые проверяют не просто знания, а способность рассуждать, проводить многoступенчатые вычисления и анализировать реальные данные.
По результатам оценки GPT-5 и Gemini 2.5 Pro заняли первые два места во всех четырёх олимпиадах, набрав в среднем 85,6% и 84,2% баллов — уровень золотой медали и сопоставимый с результатами лучших из 200–300 участников-людей. В теоретических заданиях GPT-5 особенно выделялся в сложных вопросах, требующих глубоких физико-математических рассуждений.
Интересно, что в анализе реальных данных GPT-5 также оказался в лидерах — с результатом 88,5%, что выше большинства участников-людей. Остальные модели показывали 48–76% и сильнее теряли баллы при работе с графиками и наблюдательными данными.
Учёные отмечают, что такие успехи подтверждают появление у языковых моделей зачатков научного мышления. Тем не менее, ошибки в сферической тригонометрии, временных системах и пространственной визуализации остаются общими проблемами всех моделей — их точность в этих задачах не превышала 79%.
Исследователи подчеркивают, что модели пока не способны заменить астрономов, но уже могут выступать «ИИ-соучёными», помогая проверять формулы, подбирать параметры и объяснять физические процессы.
Работа также выявила важную особенность: модели ошибаются не столько в вычислениях, сколько в логике и интерпретации геометрии. Это указывает на фундаментальное ограничение текстовых архитектур, не умеющих визуализировать пространство.
Авторы предлагают в будущем оснащать LLM визуальными «скетч-падами», позволяющими им рисовать схемы и представлять трёхмерные объекты — шаг, который может приблизить ИИ к полноценным научным ассистентам.
Код экспериментов опубликован на GitHub , а материалы олимпиад доступны на официальных сайтах IOAA 2025 и IOAA 2024 .

Международная команда исследователей из Университета штата Огайо и Университета Сан-Паулу показала, что современные языковые модели впервые достигли уровня золотых медалей на Международной олимпиаде по астрономии и астрофизике (IOAA). В работе, опубликованной на arXiv, сравнивались пять передовых систем — GPT-5, Gemini 2.5 Pro, OpenAI o3, Claude 4.1 Opus и Claude 4 Sonnet.
Исследователи использовали задания IOAA за 2022–2025 годы, оценивая теоретические и аналитические задачи, которые проверяют не просто знания, а способность рассуждать, проводить многoступенчатые вычисления и анализировать реальные данные.
По результатам оценки GPT-5 и Gemini 2.5 Pro заняли первые два места во всех четырёх олимпиадах, набрав в среднем 85,6% и 84,2% баллов — уровень золотой медали и сопоставимый с результатами лучших из 200–300 участников-людей. В теоретических заданиях GPT-5 особенно выделялся в сложных вопросах, требующих глубоких физико-математических рассуждений.
Интересно, что в анализе реальных данных GPT-5 также оказался в лидерах — с результатом 88,5%, что выше большинства участников-людей. Остальные модели показывали 48–76% и сильнее теряли баллы при работе с графиками и наблюдательными данными.
Учёные отмечают, что такие успехи подтверждают появление у языковых моделей зачатков научного мышления. Тем не менее, ошибки в сферической тригонометрии, временных системах и пространственной визуализации остаются общими проблемами всех моделей — их точность в этих задачах не превышала 79%.
Исследователи подчеркивают, что модели пока не способны заменить астрономов, но уже могут выступать «ИИ-соучёными», помогая проверять формулы, подбирать параметры и объяснять физические процессы.
Работа также выявила важную особенность: модели ошибаются не столько в вычислениях, сколько в логике и интерпретации геометрии. Это указывает на фундаментальное ограничение текстовых архитектур, не умеющих визуализировать пространство.
Авторы предлагают в будущем оснащать LLM визуальными «скетч-падами», позволяющими им рисовать схемы и представлять трёхмерные объекты — шаг, который может приблизить ИИ к полноценным научным ассистентам.
Код экспериментов опубликован на GitHub , а материалы олимпиад доступны на официальных сайтах IOAA 2025 и IOAA 2024 .