Google представила Titans и MIRAS - новое поколение ИИ для сверхдлинных контекстов
NewsMakerГлубокая нейросеть в роли долговременной памяти и метрика "сюрприза" помогают ИИ выбирать действительно важные факты
Google представила новую архитектуру для работы с длинными последовательностями Titans и теоретическую основу MIRAS , которая объединяет скорость рекуррентных сетей с точностью трансформеров. Компания утверждает, что такой подход помогает моделям лучше запоминать важные детали на очень длинных контекстах - от больших документов до геномных данных.
Классические трансформеры сделали революцию за счет механизма внимания: модель может "оглядываться назад" и выделять значимые куски текста. Но у этого есть цена. Вычислительная сложность внимания растет квадратично с длиной последовательности, поэтому масштабировать трансформеры на контексты из миллионов токенов становится слишком дорого по ресурсам.
Исследовательское сообщество уже пробовало обойти это ограничение через более быстрые линейные архитектуры - например, эффективные RNN и модели класса state space models вроде Mamba-2. Они сжимают прошлый контекст в вектор фиксированного размера, благодаря чему вычислительные затраты растут линейно. Но именно из-за жесткого ограничения по размеру памяти такие модели плохо справляются с действительно богатыми и длинными последовательностями, где важно не потерять тонкие связи между фактами.
В двух новых работах Google предлагает связку Titans и MIRAS. Titans - это конкретная архитектура, а MIRAS - общая теоретическая рамка, которая описывает такие системы как разновидность ассоциативной памяти. Вместе они развивают идею "запоминания на этапе инференса": модель может доучиваться прямо во время работы, не только извлекая информацию из параметров, но и обновляя долгосрочную память по мере поступления данных.
Google представила новую архитектуру для работы с длинными последовательностями Titans и теоретическую основу MIRAS , которая объединяет скорость рекуррентных сетей с точностью трансформеров. Компания утверждает, что такой подход помогает моделям лучше запоминать важные детали на очень длинных контекстах - от больших документов до геномных данных.
Классические трансформеры сделали революцию за счет механизма внимания: модель может "оглядываться назад" и выделять значимые куски текста. Но у этого есть цена. Вычислительная сложность внимания растет квадратично с длиной последовательности, поэтому масштабировать трансформеры на контексты из миллионов токенов становится слишком дорого по ресурсам.
Исследовательское сообщество уже пробовало обойти это ограничение через более быстрые линейные архитектуры - например, эффективные RNN и модели класса state space models вроде Mamba-2. Они сжимают прошлый контекст в вектор фиксированного размера, благодаря чему вычислительные затраты растут линейно. Но именно из-за жесткого ограничения по размеру памяти такие модели плохо справляются с действительно богатыми и длинными последовательностями, где важно не потерять тонкие связи между фактами.
В двух новых работах Google предлагает связку Titans и MIRAS. Titans - это конкретная архитектура, а MIRAS - общая теоретическая рамка, которая описывает такие системы как разновидность ассоциативной памяти. Вместе они развивают идею "запоминания на этапе инференса": модель может доучиваться прямо во время работы, не только извлекая информацию из параметров, но и обновляя долгосрочную память по мере поступления данных.