16 гигабайт — и никакого секса с серверами. Gemma 4 12B обещает почти уровень 26B без утечки данных

Google выпустила мощную нейросеть для обычных ноутбуков.

Google представила Gemma 4 12B и попыталась решить одну из главных проблем локального ИИ: мощные модели обычно требуют слишком много памяти и тяжело запускаются на обычных компьютерах. Новая версия обещает почти уровень Gemma 4 26B, но предъявляет заметно более скромные требования к железу. Для запуска хватает 16 ГБ видеопамяти или объединенной памяти, поэтому модель можно использовать локально на стандартных ноутбуках.

Главная интрига связана с сочетанием размера и производительности. По словам Google, Gemma 4 12B показывает результаты, близкие к Gemma 4 26B, хотя требует меньше половины общего объема памяти. Бенчмарки из анонса показывают очень плотные результаты, а в задаче DocVQA, где модель отвечает на вопросы по содержимому документов и изображений, Gemma 4 12B даже обходит старшую версию.

Для разработчиков новинка выглядит особенно привлекательно по простой причине: мощную мультимодальную модель теперь можно запускать не в облаке, а прямо на личном компьютере. Такой подход упрощает офлайн-работу, снижает затраты и убирает зависимость от удаленных серверов. Google уже развивала линейку Gemma в апреле, когда представила четыре модели, включая варианты для ПК и более легкие версии для мобильных устройств и интернета вещей. Gemma 4 12B заняла промежуточное место между компактными E2B и E4B и более тяжелыми 26B и 31B.

Отдельный интерес вызывает работа со звуком. Gemma 4 12B стала первой моделью Google среднего размера с нативной поддержкой аудиовхода. Обычные мультимодальные системы часто используют отдельные кодировщики для изображения и звука, а затем передают подготовленные представления в языковую модель. Новый подход устроен проще: Gemma 4 12B принимает входные данные почти напрямую, без лишних промежуточных этапов, что помогает снизить задержку и сократить расход памяти.

С изображениями схема тоже отличается от привычной. Вместо отдельного визуального кодировщика Google использует модуль встраивания, после чего основную обработку берет на себя сама языковая модель. Со звуком архитектура еще прямолинейнее: система проецирует сырой аудиосигнал в то же пространство, где находятся текстовые токены. Для разработчиков такой подход важен не только как техническая деталь. Более простая архитектура часто означает более удобную локальную работу на потребительском железе.

Первые обсуждения в сообществах разработчиков идут в целом доброжелательно. В r/LocalLLaMA новинку уже называют одной из самых интересных локальных моделей за долгое время, а поддержку аудио без отдельного кодировщика многие участники обсуждения считают главным достоинством релиза. Комментаторы на Hacker News указывают и на возможный минус: Google почти ничего не рассказала о качестве программирования, поэтому часть аудитории предполагает, что в задачах по коду Gemma 4 12B может уступать ряду конкурентов, включая модели Qwen и другие компактные решения.

Впрочем, основная ставка Google, похоже, связана не с программированием, а с другим преимуществом. Gemma 4 12B пытается принести на обычные ноутбуки уровень производительности, который раньше ассоциировался с более крупными моделями и облачными сервисами. Для локального ИИ такой шаг важен сразу по нескольким причинам: меньше расходов, больше приватности и возможность работать без постоянной отправки запросов на чужие серверы. Похожий аргумент обсуждали и в другом треде Reddit , где участники сравнивали облачные сервисы с локальным запуском.

Google развивает тему локального ИИ не впервые. В сентябре компания запустила Google AI Edge Gallery, приложение для демонстрации возможностей ИИ на устройстве. Gemma 4 12B продолжает ту же линию: модель переносит почти уровень 26B на обычные потребительские ноутбуки и показывает, что локальные ИИ-системы постепенно перестают быть нишей для энтузиастов.