ИИ выучил человеческие слова — но вложил в них совсем другой смысл. Уверены, что стоит ему доверять?

Исследователи выяснили: мы с машинами говорим на разных языка. И это опаснее, чем кажется.


e3dd00qj360t9cb3uqtg9enzy58r1fxc.jpg

Когда человек пишет «вероятно» или «скорее всего», он обычно имеет в виду вполне конкретную степень уверенности, просто выражает ее словами, а не цифрами. Читатель тоже считывает это примерно одинаково: «похоже, что да», «скорее да, чем нет», «почти точно». Исследователи из статьи в npj Complexity показывают, что у языковых моделей с такими словами часто возникает рассинхрон: модель выбирает привычное «вероятно», но в ее внутренней шкале это слово соответствует другим значениям, чем ожидает человек.

Авторы изучали слова , которыми мы обозначаем неопределенность в обычной речи: «может быть», «возможно», «вероятно», «почти наверняка». Дальше они делали простой тест. Людей и языковые модели просили взять каждое такое слово и назвать число в процентах, которое, по их мнению, ему соответствует. То есть буквально: если написано «вероятно», это ближе к 60% или к 80%? Если сказано «маловероятно», это 10% или 30%?

На краях шкалы особых сюрпризов почти не было. «Невозможно» и «почти наверняка» и люди, и модели понимают более-менее одинаково. А вот в середине начинается самое интересное, потому что там живет половина реальных формулировок. Авторы приводят пример: модель может использовать «вероятно» так, будто имеет в виду около 80%, а человек читает то же слово как что-то ближе к 65%. Получается, что сообщение звучит уверенно, но не так уверенно, как это задумала модель.

Почему возникает разница? Исследователи объясняют это тем, что люди очень сильно опираются на контекст. Один и тот же человек скажет «вероятно» по-разному в зависимости от ситуации: в бытовом разговоре, в медицинской рекомендации или в научном тексте. Плюс играет роль личный опыт и стиль автора. У языковой модели такого опыта нет, она учится на массивах текстов, где эти слова употребляются по-разному. В результате внутри модели закрепляется не человеческое чувство уместности, а усредненный вариант, который может не совпасть с ожиданием конкретного читателя.