Платон бы оценил. Нейросети сидят в пещере и гадают по теням, как устроен мир

Внутри разных ИИ-моделей находят все больше совпадений, будто они тайно учатся одной и той же картине реальности.


xts4mfh5q32uzt33h4ea1p38f6jcguau.jpg

Прочитали историю про собак и потом без труда узнаете пса в парке, даже если он совсем другой породы и ведет себя иначе. У людей есть единое понятие "собака", которое не привязано намертво ни к словам, ни к картинкам. А вот у нейросетей все устроено сложнее, и именно это сейчас снова разожгло спор в сообществе ИИ.

Большинство моделей учатся на одном типе данных. Языковые модели в основном "едят" текст, компьютерное зрение учится на изображениях, а отдельные системы тренируют на совсем необычных наборах, например для предсказания запахов молекул или структуры белков. Логичный вопрос: если одна модель знает собак по словам, а другая по фотографиям, появляется ли у них хотя бы что-то похожее на общее представление о "собаке" как о сущности, а не как о наборе пикселей или токенов.

Ответ пытаются искать, заглядывая внутрь моделей и сравнивая то, как они кодируют смысл. За последние годы накопилось немало работ, где разные нейросети, даже обученные на разных данных и с разной архитектурой, внезапно демонстрируют похожие внутренние представления. А несколько исследований намекнули на ещё более интригующую вещь: чем мощнее становятся модели, тем сильнее это сходство. В 2024 году четверо исследователей из MIT предложили объяснение и дали ему громкое имя: гипотеза платоновских представлений. Идея быстро разошлась по сообществу и породила волну ответных работ и оживлённых споров.

Отсылка к Платону здесь не ради красоты. В знаменитой аллегории про пещеру люди видят реальность только по теням на стене. В версии для ИИ "тени" — это потоки данных: текст, изображения, подписи к картинкам и всё остальное, что можно скормить модели. А сами модели как бы "сидят в пещере" и пытаются по теням восстановить устройство мира. Старший автор работы Филлип Айсола формулирует мысль просто: языковая и зрительная модели могут сходиться, потому что обе являются отражением одного и того же мира, просто увиденного через разные каналы.