Нейросети посадили на «квантовую диету». Физики придумали не раздувать серверы до бесконечности
NewsMakerИнженеры показали новый способ улучшать алгоритмы без лишних затрат.
Квантовые схемы предложили способ улучшать большие языковые модели без очередного раздувания серверов и памяти. Команда Борхи Айспуруа (Borja Aizpurua) из Multiverse Computing показала, что небольшие квантовые блоки могут повысить качество ИИ, добавив к модели всего несколько тысяч новых параметров.
Исследователи описали подход в препринте на arXiv . Вместо простого увеличения модели специалисты встроили в уже обученную языковую систему небольшие квантовые схемы . Основная часть продолжает работать на обычном компьютере, а квантовые компоненты выполняются на 156-кубитном сверхпроводящем процессоре IBM .
Большие языковые модели вроде ChatGPT и Claude опираются на огромное число настраиваемых параметров. Каждый параметр помогает системе обрабатывать текст и предсказывать следующие слова, но одновременно занимает физическую память. Чем крупнее модель, тем дороже хранение, обучение и запуск. GPT-5.5, например, предположительно содержит от двух до пяти триллионов параметров.
Квантовые схемы предлагают другой путь. Небольшой квантовый блок способен компактно кодировать сложные математические зависимости, для которых обычной модели потребовалось бы гораздо больше классических параметров. В результате возникает гибридная архитектура: привычная нейросеть обрабатывает текст, а квантовая часть усиливает отдельные внутренние вычисления.
Проверку провели на Llama 3.1 8B, модели Meta с восемью миллиардами параметров. После добавления квантовых блоков исследователи снизили perplexity на 1,4%. Метрика показывает, насколько уверенно языковая модель предсказывает продолжение текста: чем ниже значение, тем лучше результат. При этом система получила всего 6000 новых параметров, меньше одной десятитысячной процента от общего размера модели.
Авторы также проверили метод на SmolLM2, более компактной модели со 135 миллионами параметров. Малый размер позволил внимательнее изучить влияние квантовых компонентов. Чем крупнее становились квантовые блоки, тем стабильнее улучшалось качество ответов, а гибридная модель правильно ответила на вопросы, с которыми не справились две полностью классические версии.
Пока прирост производительности остается небольшим. Разработчики связывают ограничения с нынешним уровнем квантового оборудования: современные процессоры всё еще дают шум, допускают ошибки и не позволяют свободно масштабировать вычисления. Но работа метода на реальной языковой модели показывает новый вариант развития ИИ: повышать качество не только за счет гигантских дата-центров и триллионов параметров, но и за счет более плотных математических представлений.
Если квантовые процессоры станут мощнее и стабильнее, гибридные модели смогут получить больше практической пользы. Квантово-классическая схема особенно важна для отрасли, где рост ИИ всё чаще упирается не в идеи, а в память, энергопотребление и стоимость инфраструктуры.
Квантовые схемы предложили способ улучшать большие языковые модели без очередного раздувания серверов и памяти. Команда Борхи Айспуруа (Borja Aizpurua) из Multiverse Computing показала, что небольшие квантовые блоки могут повысить качество ИИ, добавив к модели всего несколько тысяч новых параметров.
Исследователи описали подход в препринте на arXiv . Вместо простого увеличения модели специалисты встроили в уже обученную языковую систему небольшие квантовые схемы . Основная часть продолжает работать на обычном компьютере, а квантовые компоненты выполняются на 156-кубитном сверхпроводящем процессоре IBM .
Большие языковые модели вроде ChatGPT и Claude опираются на огромное число настраиваемых параметров. Каждый параметр помогает системе обрабатывать текст и предсказывать следующие слова, но одновременно занимает физическую память. Чем крупнее модель, тем дороже хранение, обучение и запуск. GPT-5.5, например, предположительно содержит от двух до пяти триллионов параметров.
Квантовые схемы предлагают другой путь. Небольшой квантовый блок способен компактно кодировать сложные математические зависимости, для которых обычной модели потребовалось бы гораздо больше классических параметров. В результате возникает гибридная архитектура: привычная нейросеть обрабатывает текст, а квантовая часть усиливает отдельные внутренние вычисления.
Проверку провели на Llama 3.1 8B, модели Meta с восемью миллиардами параметров. После добавления квантовых блоков исследователи снизили perplexity на 1,4%. Метрика показывает, насколько уверенно языковая модель предсказывает продолжение текста: чем ниже значение, тем лучше результат. При этом система получила всего 6000 новых параметров, меньше одной десятитысячной процента от общего размера модели.
Авторы также проверили метод на SmolLM2, более компактной модели со 135 миллионами параметров. Малый размер позволил внимательнее изучить влияние квантовых компонентов. Чем крупнее становились квантовые блоки, тем стабильнее улучшалось качество ответов, а гибридная модель правильно ответила на вопросы, с которыми не справились две полностью классические версии.
Пока прирост производительности остается небольшим. Разработчики связывают ограничения с нынешним уровнем квантового оборудования: современные процессоры всё еще дают шум, допускают ошибки и не позволяют свободно масштабировать вычисления. Но работа метода на реальной языковой модели показывает новый вариант развития ИИ: повышать качество не только за счет гигантских дата-центров и триллионов параметров, но и за счет более плотных математических представлений.
Если квантовые процессоры станут мощнее и стабильнее, гибридные модели смогут получить больше практической пользы. Квантово-классическая схема особенно важна для отрасли, где рост ИИ всё чаще упирается не в идеи, а в память, энергопотребление и стоимость инфраструктуры.