ИИ выучил человеческие слова — но вложил в них совсем другой смысл. Уверены, что стоит ему доверять?

Исследователи выяснили: мы с машинами говорим на разных языка. И это опаснее, чем кажется.

Когда человек пишет «вероятно» или «скорее всего», он обычно имеет в виду вполне конкретную степень уверенности, просто выражает ее словами, а не цифрами. Читатель тоже считывает это примерно одинаково: «похоже, что да», «скорее да, чем нет», «почти точно». Исследователи из статьи в npj Complexity показывают, что у языковых моделей с такими словами часто возникает рассинхрон: модель выбирает привычное «вероятно», но в ее внутренней шкале это слово соответствует другим значениям, чем ожидает человек.

Авторы изучали слова , которыми мы обозначаем неопределенность в обычной речи: «может быть», «возможно», «вероятно», «почти наверняка». Дальше они делали простой тест. Людей и языковые модели просили взять каждое такое слово и назвать число в процентах, которое, по их мнению, ему соответствует. То есть буквально: если написано «вероятно», это ближе к 60% или к 80%? Если сказано «маловероятно», это 10% или 30%?

На краях шкалы особых сюрпризов почти не было. «Невозможно» и «почти наверняка» и люди, и модели понимают более-менее одинаково. А вот в середине начинается самое интересное, потому что там живет половина реальных формулировок. Авторы приводят пример: модель может использовать «вероятно» так, будто имеет в виду около 80%, а человек читает то же слово как что-то ближе к 65%. Получается, что сообщение звучит уверенно, но не так уверенно, как это задумала модель.

Почему возникает разница? Исследователи объясняют это тем, что люди очень сильно опираются на контекст. Один и тот же человек скажет «вероятно» по-разному в зависимости от ситуации: в бытовом разговоре, в медицинской рекомендации или в научном тексте. Плюс играет роль личный опыт и стиль автора. У языковой модели такого опыта нет, она учится на массивах текстов, где эти слова употребляются по-разному. В результате внутри модели закрепляется не человеческое чувство уместности, а усредненный вариант, который может не совпасть с ожиданием конкретного читателя.

В статье описаны и дополнительные эффекты. Оценки модели менялись из-за того, как именно сформулирован запрос. Когда в тексте меняли местоимение «он» на «она», ответы часто становились более жесткими по шкале вероятности, что авторы связывают с перекосами, попавшими в обучающие данные . При переводе запроса с английского на китайский оценки тоже сдвигались. Объяснение, которое предлагают исследователи, связано с тем, что разные языки по-разному выражают неопределенность, и одинаковые по смыслу слова не всегда занимают одно и то же место на внутренней шкале уверенности.

Авторы подчеркивают, что это не придирка к стилистике. Проблема важна там, где от формулировок зависит решение. Например, если ассистент для врача пишет, что побочный эффект «маловероятен», а под этим словом модель подразумевает заметно более высокий риск, чем врач обычно вкладывает в «маловероятно», рекомендация может сместиться. В медицине, госуправлении и научной коммуникации такие несостыковки быстро превращаются в вопрос доверия.

Интересно, что сама идея переводить словесные оценки в проценты появилась не вчера. С 1960-х годов исследователи изучают, как люди понимают неопределенность, а аналитики, в том числе в разведке, пытались стандартизировать формулировки, чтобы разные читатели интерпретировали их одинаково. Сейчас к этой теме добавились языковые модели , и выяснилось, что они могут говорить «по-человечески», но не всегда совпадают с человеком в том, что именно означают слова про риск.

Другие команды пытаются исправлять такие ошибки разными приемами, например просят модель подробно расписывать ход рассуждений. Но авторы отмечают, что даже развернутое объяснение не гарантирует, что модель выберет то слово, которое соответствует ее же числам. Иначе говоря, можно получить аккуратную логическую цепочку и все равно увидеть в конце «вероятно» там, где человек ожидал бы «скорее всего» или наоборот.

Дальше, по мнению исследователей, нужны более жесткие правила согласованности. Если модель видит в данных риск 10%, она должна стабильно выбирать одно и то же словесное обозначение, а не менять его из-за формулировки вопроса, языка или мелких деталей. По мере того как ИИ все чаще пересказывает научные статьи, помогает врачам и принимает участие в управленческих решениях, слова вроде «вероятно» должны значить одно и то же для всех участников разговора, иначе вежливые формулировки начинают вводить в заблуждение.