Google представила Titans и MIRAS - новое поколение ИИ для сверхдлинных контекстов

Глубокая нейросеть в роли долговременной памяти и метрика "сюрприза" помогают ИИ выбирать действительно важные факты


d1jxef27wj9zgjjbiuk2b5n4fgmchzae.jpg

Google представила новую архитектуру для работы с длинными последовательностями Titans и теоретическую основу MIRAS , которая объединяет скорость рекуррентных сетей с точностью трансформеров. Компания утверждает, что такой подход помогает моделям лучше запоминать важные детали на очень длинных контекстах - от больших документов до геномных данных.

Классические трансформеры сделали революцию за счет механизма внимания: модель может "оглядываться назад" и выделять значимые куски текста. Но у этого есть цена. Вычислительная сложность внимания растет квадратично с длиной последовательности, поэтому масштабировать трансформеры на контексты из миллионов токенов становится слишком дорого по ресурсам.

Исследовательское сообщество уже пробовало обойти это ограничение через более быстрые линейные архитектуры - например, эффективные RNN и модели класса state space models вроде Mamba-2. Они сжимают прошлый контекст в вектор фиксированного размера, благодаря чему вычислительные затраты растут линейно. Но именно из-за жесткого ограничения по размеру памяти такие модели плохо справляются с действительно богатыми и длинными последовательностями, где важно не потерять тонкие связи между фактами.

В двух новых работах Google предлагает связку Titans и MIRAS. Titans - это конкретная архитектура, а MIRAS - общая теоретическая рамка, которая описывает такие системы как разновидность ассоциативной памяти. Вместе они развивают идею "запоминания на этапе инференса": модель может доучиваться прямо во время работы, не только извлекая информацию из параметров, но и обновляя долгосрочную память по мере поступления данных.