Тысячи статей, миллионы цифр — и учёные больше не справляются. ИИ прочитает всё за них с точностью 98%

Новый инструмент Quinex выпотрошит научные архивы и вытащит скрытые цифры.


xjz166ewet39nx10g1i0fn7dtvqwezbk.jpg

В научных статьях цифры часто важнее общих выводов. Именно по ним сравнивают технологии, уточняют модели и замечают новые тенденции. Но нужные значения редко лежат на поверхности. Температуры, КПД, выбросы, стоимость, параметры материалов и медицинские показатели обычно спрятаны внутри абзацев вместе с оговорками, единицами измерения, временем, местом и способом расчета. Когда публикаций становится слишком много, вручную собирать такие данные из сотен и тысяч работ почти невозможно.

Исследователи из Юлиха предложили для такой задачи отдельный инструмент. Фреймворк Quinex , сокращение от Quantitative Information Extraction, автоматически находит в научных текстах количественные данные, определяет, что именно описывает каждое число, привязывает его к единице измерения и превращает все в структурированный набор данных. Система не ограничивается простым поиском цифр. Она пытается восстановить контекст: что измеряли, когда получили результат, где проходило наблюдение и каким методом пользовались авторы. Фраза о том, что в 2025 году предполагается эффективность на уровне от 63 до 71 %, после обработки превращается в запись с параметром, диапазоном значений, годом, методом и ссылкой на источник внутри текста.

Авторы исходили из вполне приземленной проблемы. В энергетике, климатических исследованиях, материаловедении и других областях публикации постоянно содержат количественные оценки, без которых нельзя ни пересчитать модель, ни сравнить результаты, ни увидеть общую картину по теме. Поток статей при этом растет слишком быстро. Для многих исследовательских задач полный ручной обзор литературы уже упирается не в квалификацию специалиста, а просто в нехватку времени и рабочих рук.

Quinex построен на языковых моделях, но команда отдельно подчеркивает важную деталь: система целиком опирается на открытые и сравнительно компактные модели, а не на закрытые коммерческие решения. Такой выбор дает сразу несколько преимуществ. Инструмент проще проверять, проще дорабатывать и проще запускать без дорогой инфраструктуры. Для научной среды это особенно важно, потому что доступ к вычислительным ресурсам сильно различается от группы к группе.