Думали, что Google спасёт нас от дефицита памяти? Как бы не так. Станет только хуже

Перспективные алгоритмы лишь раззадорили аппетиты создателей нейросетей.

Технологии сжатия данных для искусственного интеллекта всё чаще обещают снизить расходы на инфраструктуру, но реальность оказывается сложнее. Новая разработка Google под названием TurboQuant привлекла внимание громкими заявлениями о сокращении потребления памяти. Однако ожидания рынка столкнулись с более прозаичным эффектом — дефицит памяти никуда не исчезнет .

TurboQuant представляет собой метод квантования — перевода данных в формат с меньшей точностью. Речь идёт не о сжатии самой модели, а о снижении объёма памяти для хранения так называемых KV-кэшей, которые отвечают за «кратковременную память» языковых моделей во время работы. Именно эти кэши нередко занимают больше ресурсов, чем сама модель, особенно при длинных диалогах.

Обычно такие данные хранятся с точностью 16 бит. Снижение до 8 или 4 бит уже даёт кратное уменьшение потребления памяти, но сопровождается потерями качества и дополнительной нагрузкой на вычисления. В Google заявляют, что TurboQuant позволяет добиться близкого к BF16 качества при использовании всего около 3,5 бит. В отдельных сценариях ускорение вычислений на GPU вроде H100 может достигать восьми раз.

Технология сочетает два математических подхода — Quantized Johnson-Lindenstrauss и PolarQuant. Последний переводит векторы в полярные координаты, что позволяет сократить избыточные вычисления и упростить хранение данных. Затем второй алгоритм корректирует возникающие погрешности, чтобы сохранить точность работы модели.

Интернет умер Сохраните хоть канал.

В тестах разработчики смогли уменьшить размер KV-кэшей до 2,5 бит с минимальными потерями качества. Именно такие результаты и легли в основу заявлений о шестикратной экономии памяти. Кроме того, подход потенциально применим не только к языковым моделям, но и к векторным базам данных, используемым в поисковых системах.

Несмотря на впечатляющие цифры, TurboQuant не решит проблему роста цен на память. Аналитики отмечают, что оптимизация скорее приведёт к увеличению масштабов задач. За последний год окна контекста у моделей выросли с десятков тысяч токенов до миллионов. Например, решения вроде DeepSeek уже задали этот тренд, а инструменты и агентные системы наподобие OpenClaw только усиливают спрос на длинные контексты.

По оценке TrendForce, такие технологии будут не снижать потребление памяти, а стимулировать новые сценарии использования, требующие ещё больших объёмов DRAM и NAND. В итоге операционные расходы могут сократиться, но общий спрос на память продолжит расти.

TurboQuant открывает новые возможности для оптимизации инференса, но не отменяет фундаментальную проблему — аппетиты современных моделей растут быстрее, чем успевают дешеветь ресурсы.