Дешево, сердито и на китайских чипах. DeepSeek представила новую языковую модель V4 с 1,6 трлн параметров

DeepSeek утверждает, что V4-Pro почти догоняет лидеров рынка, но стоит в разы дешевле западных конкурентов.

Китайская DeepSeek снова пытается сломать привычную экономику ИИ. Компания представила DeepSeek V4, новую большую языковую модель с открытыми весами, которая, по словам разработчиков, должна конкурировать с лучшими закрытыми американскими моделями, но обходиться заметно дешевле при запуске. Главная интрига не только в тестах: DeepSeek заявила поддержку ускорителей Huawei Ascend, а значит, китайская ИИ-инфраструктура получает еще один аргумент в пользу ухода от полной зависимости от Nvidia.

DeepSeek V4 вышла сразу в двух версиях. Младшая Flash-модель получила 284 млрд параметров, но во время работы использует только 13 млрд активных параметров. Старшая V4-Pro выросла до 1,6 трлн параметров, из которых в каждый момент задействуются 49 млрд. Обе версии построены по схеме «смеси экспертов», где запрос обрабатывает не вся модель сразу, а выбранные специализированные блоки. Такой подход снижает стоимость ответа и позволяет держать огромную модель в приемлемых рамках по памяти и скорости.

DeepSeek утверждает, что V4-Pro обучили на 33 трлн токенов, а в собственном наборе тестов модель обходит все системы с открытыми весами и приближается к лучшим закрытым решениям Запада. К таким заявлениям стоит относиться осторожно. DeepSeek уже доказала, что умеет делать сильные модели, а семейства V3 и R1 вывели компанию в мировую ИИ-повестку, но красивые результаты в тестах не всегда превращаются в такую же уверенную работу в реальных продуктах, коде, сложных диалогах и корпоративных задачах.

Тем не менее рост по сравнению с прошлыми моделями выглядит ожидаемым. V4-Pro почти на триллион параметров крупнее предыдущих флагманов DeepSeek и использует больше активных параметров при генерации ответа. Но компания снова делает ставку не только на масштаб, а на удешевление работы модели. Именно такой подход сделал DeepSeek V3 заметной: модель показала, что системы переднего края можно обучать и запускать дешевле, чем принято было считать.

Мы в MAX. Простите. Читайте нас хотя бы там.

В DeepSeek V4 разработчики изменили механизм внимания, который помогает модели связывать части запроса и уже сгенерированного текста. В опубликованной вместе с релизом статье исследователи описали гибридную схему, сочетающую Compressed Sparse Attention и Heavy Compressed Attention. По задумке DeepSeek, такая архитектура снижает вычислительную нагрузку и резко уменьшает объем памяти для KV-кэшей, где модель хранит состояние длинного диалога или большого документа.

KV-кэши давно стали одной из самых дорогих частей запуска больших моделей. Чем длиннее контекст, тем больше памяти требуется системе, а провайдеры часто вынуждены выносить такие данные в оперативную память или на накопители, чтобы избежать задержек при повторных запросах. DeepSeek заявляет, что новая схема позволяет V4 поддерживать контекст до 1 млн токенов и при этом тратить в 9,5–13,7 раза меньше памяти, чем DeepSeek V3.2.

Компания также продолжила снижать точность вычислений там, где потерю можно пережить без заметного падения качества. DeepSeek V3 уже выделялась обучением в FP8, а V4 использует смесь FP8 и FP4. Для весов экспертных блоков разработчики применили обучение с учетом квантования, чтобы модель заранее адаптировалась к более компактному представлению данных. FP4 фактически вдвое уменьшает объем памяти для хранения весов по сравнению с FP8, хотя требует аккуратной настройки из-за риска потери точности.

Изменения затронули и обучение. В V4 DeepSeek представила новый оптимизатор Muon, который должен ускорять сходимость и делать обучение стабильнее. Деталей пока недостаточно, чтобы оценить реальный вклад Muon отдельно от остальных архитектурных решений, но DeepSeek явно пытается показывать прогресс не только количеством параметров, а всей инженерной системой вокруг модели.

Самая политически и технологически чувствительная часть релиза связана с железом. В статье DeepSeek лишь кратко указывает, что компания проверила тонкую схему распределения экспертных блоков как на графических процессорах Nvidia, так и на ускорителях Huawei Ascend. Формулировка не означает, что V4 полностью обучали на китайских чипах. Скорее речь идет о проверке запуска модели на ускорителях Huawei, что уже важно для китайского рынка.

Обучение передовых моделей по-прежнему гораздо сложнее перенести на новые чипы, чем запуск готовой модели. Ранее DeepSeek, по сообщениям отраслевых источников, пыталась активнее использовать ускорители Huawei, но столкнулась с проблемами надежности, медленными межчиповыми соединениями и незрелой программной средой. Запуск моделей обычно требует меньше от аппаратной платформы, поэтому поддержка Ascend в V4 выглядит реалистичным промежуточным шагом.

Использование FP4 не обязательно означает доступ DeepSeek к новейшим Nvidia Blackwell, которые американские власти запрещают продавать в Китай. Ускорители Hopper не имеют полноценного аппаратного ускорения FP4, но могут применять такой формат для хранения весов. Производительность операций с плавающей точкой от такой схемы напрямую не растет, зато модель требует меньше памяти и пропускной способности, а для многих сценариев запуска выигрыш оказывается важнее.

DeepSeek уже открыла предварительный доступ к V4. Базовые и инструкционные версии доступны для скачивания через популярные хранилища моделей, включая Hugging Face, а также через API и веб-сервис самой компании. Младшая Flash-версия стоит $0,14 за миллион входных токенов без учета кэша и $0,28 за миллион выходных токенов. Старшая V4-Pro заметно дороже: $1,74 за миллион входных токенов и $3,48 за миллион выходных.

Даже цена Pro-версии выглядит агрессивной на фоне американских конкурентов. Для сравнения, OpenAI берет $5 за миллион входных токенов и $30 за миллион выходных токенов за GPT-5.5. Если DeepSeek сможет подтвердить качество V4 вне собственных тестов, новая модель станет не просто очередным крупным релизом из Китая, а прямым ударом по ценовой модели западных поставщиков ИИ. В таком сценарии конкурировать придется не только количеством параметров и красивыми таблицами, но и стоимостью каждого ответа.