Платон бы оценил. Нейросети сидят в пещере и гадают по теням, как устроен мир

Внутри разных ИИ-моделей находят все больше совпадений, будто они тайно учатся одной и той же картине реальности.

Прочитали историю про собак и потом без труда узнаете пса в парке, даже если он совсем другой породы и ведет себя иначе. У людей есть единое понятие "собака", которое не привязано намертво ни к словам, ни к картинкам. А вот у нейросетей все устроено сложнее, и именно это сейчас снова разожгло спор в сообществе ИИ.

Большинство моделей учатся на одном типе данных. Языковые модели в основном "едят" текст, компьютерное зрение учится на изображениях, а отдельные системы тренируют на совсем необычных наборах, например для предсказания запахов молекул или структуры белков. Логичный вопрос: если одна модель знает собак по словам, а другая по фотографиям, появляется ли у них хотя бы что-то похожее на общее представление о "собаке" как о сущности, а не как о наборе пикселей или токенов.

Ответ пытаются искать, заглядывая внутрь моделей и сравнивая то, как они кодируют смысл. За последние годы накопилось немало работ, где разные нейросети, даже обученные на разных данных и с разной архитектурой, внезапно демонстрируют похожие внутренние представления. А несколько исследований намекнули на ещё более интригующую вещь: чем мощнее становятся модели, тем сильнее это сходство. В 2024 году четверо исследователей из MIT предложили объяснение и дали ему громкое имя: гипотеза платоновских представлений. Идея быстро разошлась по сообществу и породила волну ответных работ и оживлённых споров.

Отсылка к Платону здесь не ради красоты. В знаменитой аллегории про пещеру люди видят реальность только по теням на стене. В версии для ИИ "тени" — это потоки данных: текст, изображения, подписи к картинкам и всё остальное, что можно скормить модели. А сами модели как бы "сидят в пещере" и пытаются по теням восстановить устройство мира. Старший автор работы Филлип Айсола формулирует мысль просто: языковая и зрительная модели могут сходиться, потому что обе являются отражением одного и того же мира, просто увиденного через разные каналы.

Но как вообще сравнивать то, что происходит внутри настолько разных систем? Внутренние представления нейросети в итоге сводятся к длинным наборам чисел, которые показывают, какие "нейроны" и насколько активны. Исследователи обычно смотрят на отдельный слой, записывают его активность как вектор в многомерном пространстве и сравнивают направления таких векторов. Внутри одной модели всё относительно понятно: близкие по смыслу вещи часто оказываются рядом и в математическом смысле. Условный "dog" будет ближе к "pet" или "bark", чем к "molasses". Этот принцип иногда объясняют фразой лингвиста Джона Руперта Ферта: значение слова видно по тому, с какими соседями оно чаще появляется.

Сложнее, когда нужно сопоставить два разных "пространства", где оси и масштабы не совпадают. Поэтому сравнение делают обходным путём, по сути измеряя "похожесть похожестей". Берут набор понятий, прогоняют через две модели и смотрят, насколько похожи формы получившихся "облаков" представлений: что к чему ближе, какие группы получаются, какие отношения сохраняются. Исследователь из Нью-Йоркского университета Илья Сухолуцкий описывает это как сравнение того, насколько одинаково модели выстраивают связи внутри набора.

Одна из важных зацепок в пользу гипотезы появилась в эксперименте Минёна Ху, тогда аспиранта в группе Айсолы (сейчас он работает в OpenAI ). Он сравнил несколько зрительных моделей и несколько языковых разного размера на наборе данных из Википедии, где у изображений есть подписи. Картинки отправлялись в vision-модели, подписи — в language-модели, а затем сравнивались структуры представлений. По наблюдениям Ху, чем сильнее становились модели, тем больше росло сходство между тем, как они "видят" один и тот же набор объектов и описаний.

Критики, впрочем, уверены, что это ещё не доказательство "единого" внутреннего языка реальности. Исследователь из Чикагского университета Кристофер Вулфрам напоминает, что результат легко зависит от выбора данных и методики: поменяйте датасет или слой, и картина может стать другой. А Алексей Ефрос из Калифорнийского университета в Беркли, который хорошо знает авторов работы, считает, что различия между моделями часто важнее сходств. Он обращает внимание на то, что в примере с Википедией изображение и подпись специально рассказывают почти одно и то же, а в реальной жизни много того, что плохо переводится между модальностями. Иначе говоря, не зря люди идут в художественный музей, а не ограничиваются чтением каталога.

При этом даже "неидеальная" взаимная похожесть может быть полезной. Уже появились методы, которые позволяют переводить внутренние представления предложений из одной языковой модели в другую, а если зрительные и языковые представления хотя бы частично взаимозаменяемы, это может упростить обучение мультимодальных систем . С другой стороны, исследователь из Университета Британской Колумбии Джефф Клюн скептически относится к надежде на одну простую теорию: по его словам, поведение систем с триллионами параметров вряд ли получится свести к аккуратной формуле, ответы будут сложными.

Именно в этом сейчас и интрига. Одни исследователи пытаются поймать "универсалии" и доказать, что сильные модели неизбежно сходятся к общему способу описывать мир. Другие уверены, что самые интересные открытия спрятаны в местах, где модели расходятся и где их нельзя заставить мыслить одинаково. А для практики спор важен уже сейчас, потому что от него зависит, как мы будем строить следующие поколения ИИ, которые одинаково уверенно понимают и слова, и картинки, и всё то, что между ними.