Тысячи статей, миллионы цифр — и учёные больше не справляются. ИИ прочитает всё за них с точностью 98%

Новый инструмент Quinex выпотрошит научные архивы и вытащит скрытые цифры.

В научных статьях цифры часто важнее общих выводов. Именно по ним сравнивают технологии, уточняют модели и замечают новые тенденции. Но нужные значения редко лежат на поверхности. Температуры, КПД, выбросы, стоимость, параметры материалов и медицинские показатели обычно спрятаны внутри абзацев вместе с оговорками, единицами измерения, временем, местом и способом расчета. Когда публикаций становится слишком много, вручную собирать такие данные из сотен и тысяч работ почти невозможно.

Исследователи из Юлиха предложили для такой задачи отдельный инструмент. Фреймворк Quinex , сокращение от Quantitative Information Extraction, автоматически находит в научных текстах количественные данные, определяет, что именно описывает каждое число, привязывает его к единице измерения и превращает все в структурированный набор данных. Система не ограничивается простым поиском цифр. Она пытается восстановить контекст: что измеряли, когда получили результат, где проходило наблюдение и каким методом пользовались авторы. Фраза о том, что в 2025 году предполагается эффективность на уровне от 63 до 71 %, после обработки превращается в запись с параметром, диапазоном значений, годом, методом и ссылкой на источник внутри текста.

Авторы исходили из вполне приземленной проблемы. В энергетике, климатических исследованиях, материаловедении и других областях публикации постоянно содержат количественные оценки, без которых нельзя ни пересчитать модель, ни сравнить результаты, ни увидеть общую картину по теме. Поток статей при этом растет слишком быстро. Для многих исследовательских задач полный ручной обзор литературы уже упирается не в квалификацию специалиста, а просто в нехватку времени и рабочих рук.

Quinex построен на языковых моделях, но команда отдельно подчеркивает важную деталь: система целиком опирается на открытые и сравнительно компактные модели, а не на закрытые коммерческие решения. Такой выбор дает сразу несколько преимуществ. Инструмент проще проверять, проще дорабатывать и проще запускать без дорогой инфраструктуры. Для научной среды это особенно важно, потому что доступ к вычислительным ресурсам сильно различается от группы к группе.

Разработчики утверждают, что Quinex точнее многих сопоставимых систем, аккуратнее работает с контекстом и лучше учитывает не только прямые, но и неявные признаки. Для такой задачи это принципиально. Число в статье редко живет само по себе. Нужно понять, к какому объекту относится значение, какой параметр оно описывает, при каких условиях его получили и можно ли вообще сравнивать его с результатами из другой работы.

Приводят и конкретные метрики. Для чисел и связанных с ними единиц измерения Quinex показал около 98 % по F1. Для классификации количественно описываемых свойств и сущностей показатели ниже, но все равно высокие: примерно 87 % и 82 %. Команда добилась таких результатов не только настройкой моделей, но и за счет специально подготовленных обучающих наборов данных и методических доработок. Иначе говоря, разработчики не просто направили готовую языковую модель на массив статей, а собрали под задачу отдельную обучающую базу и подогнали систему именно под извлечение числовой информации из научных текстов.

Проверку проводили не на одной узкой теме. Quinex прогнали по тысячам научных аннотаций из разных областей. Система извлекала данные о стоимости производства электроэнергии для разных энергетических технологий, о максимальном потреблении кислорода у человека, о магнитуде и географии землетрясений, а также о ширине запрещенной зоны в фотоэлектрических материалах. Подбор примеров хорошо показывает замысел команды: инструмент готовили не под одну дисциплину, а под широкий круг исследовательских задач.

При этом команда не выдает Quinex за замену исследователю. Разработчики прямо пишут, что система не свободна от ошибок. Главный плюс подхода они видят в прозрачности. Quinex очень надежно находит сами числа и единицы измерения, потому что берет их напрямую из текста. По этой причине система не должна галлюцинировать значения, которых в статье нет. Ошибки появляются в другой точке: при интерпретации контекста. Проблемы возможны, когда важные связи разбросаны по разным частям текста и нужный смысл нельзя уверенно восстановить по одному предложению.

Именно поэтому Quinex предлагают использовать как вспомогательный инструмент. Он снимает с исследователя рутинную часть работы, но не забирает у него ответственность за выводы. Каждое найденное число можно проследить до исходного фрагмента публикации, а там, где это возможно, система еще и подсвечивает нужное место в оригинальном тексте.

Следующий шаг у команды уже понятен: расширить Quinex за счет дополнительных отраслевых наборов данных и новых моделей, чтобы система лучше подстраивалась под требования конкретных дисциплин. Параллельно Forschungszentrum Jülich выпускает проект в открытый доступ. Исследователи из других стран смогут протестировать Quinex, доработать его и адаптировать под свои области, включая энергетику, химию и биомедицину.