Думали, что Google спасёт нас от дефицита памяти? Как бы не так. Станет только хуже
NewsMakerПерспективные алгоритмы лишь раззадорили аппетиты создателей нейросетей.
Технологии сжатия данных для искусственного интеллекта всё чаще обещают снизить расходы на инфраструктуру, но реальность оказывается сложнее. Новая разработка Google под названием TurboQuant привлекла внимание громкими заявлениями о сокращении потребления памяти. Однако ожидания рынка столкнулись с более прозаичным эффектом — дефицит памяти никуда не исчезнет .
TurboQuant представляет собой метод квантования — перевода данных в формат с меньшей точностью. Речь идёт не о сжатии самой модели, а о снижении объёма памяти для хранения так называемых KV-кэшей, которые отвечают за «кратковременную память» языковых моделей во время работы. Именно эти кэши нередко занимают больше ресурсов, чем сама модель, особенно при длинных диалогах.
Обычно такие данные хранятся с точностью 16 бит. Снижение до 8 или 4 бит уже даёт кратное уменьшение потребления памяти, но сопровождается потерями качества и дополнительной нагрузкой на вычисления. В Google заявляют, что TurboQuant позволяет добиться близкого к BF16 качества при использовании всего около 3,5 бит. В отдельных сценариях ускорение вычислений на GPU вроде H100 может достигать восьми раз.
Технология сочетает два математических подхода — Quantized Johnson-Lindenstrauss и PolarQuant. Последний переводит векторы в полярные координаты, что позволяет сократить избыточные вычисления и упростить хранение данных. Затем второй алгоритм корректирует возникающие погрешности, чтобы сохранить точность работы модели.
Технологии сжатия данных для искусственного интеллекта всё чаще обещают снизить расходы на инфраструктуру, но реальность оказывается сложнее. Новая разработка Google под названием TurboQuant привлекла внимание громкими заявлениями о сокращении потребления памяти. Однако ожидания рынка столкнулись с более прозаичным эффектом — дефицит памяти никуда не исчезнет .
TurboQuant представляет собой метод квантования — перевода данных в формат с меньшей точностью. Речь идёт не о сжатии самой модели, а о снижении объёма памяти для хранения так называемых KV-кэшей, которые отвечают за «кратковременную память» языковых моделей во время работы. Именно эти кэши нередко занимают больше ресурсов, чем сама модель, особенно при длинных диалогах.
Обычно такие данные хранятся с точностью 16 бит. Снижение до 8 или 4 бит уже даёт кратное уменьшение потребления памяти, но сопровождается потерями качества и дополнительной нагрузкой на вычисления. В Google заявляют, что TurboQuant позволяет добиться близкого к BF16 качества при использовании всего около 3,5 бит. В отдельных сценариях ускорение вычислений на GPU вроде H100 может достигать восьми раз.
Технология сочетает два математических подхода — Quantized Johnson-Lindenstrauss и PolarQuant. Последний переводит векторы в полярные координаты, что позволяет сократить избыточные вычисления и упростить хранение данных. Затем второй алгоритм корректирует возникающие погрешности, чтобы сохранить точность работы модели.