Meta показала MobileLLM-Pro — модель, которая работает без облака и вмещает 128 тыс. токенов

Модель с 1 млрд параметров не требует подключения к облаку.


fy6j189batk45zf73prb6uu65osymwa2.jpg

Meta Reality Labs представила MobileLLM-P1 (Pro) — компактную языковую модель на 1 млрд параметров, созданную для работы без подключения к облаку. Она умеет выполнять привычные задачи вроде ответов на вопросы, перефразирования и суммаризации текста прямо на устройстве. Модель и её файлы доступны на Hugging Face .

В серии MobileLLM вышло два варианта: базовый и дообученный по инструкциям. Оба открыты и включают готовые контрольные точки (checkpoints) для CPU и мобильных ускорителей.

По данным Meta, базовая MobileLLM-Pro показывает лучшие результаты, чем Gemma 3 1B и Llama 3.2 1B — на 5,7 % и 7,9 % выше в задачах рассуждения, извлечения знаний и работы с длинным контекстом. При этом модель обучалась на объёме менее 2 трлн полностью открытых токенов.

Контекст у модели — до 128 000 токенов. Это позволяет анализировать длинные документы и извлекать информацию из больших текстов. Чтобы ускорить работу, разработчики используют комбинацию локального и глобального внимания (соотношение 3:1). Такой подход снижает задержку почти в два раза и уменьшает объём KV-кэша с 117 МБ до 40 МБ.

MobileLLM-Pro поддерживает 4-битную квантизацию с минимальными потерями качества — не более 1,3 %. Для CPU используется int4 (веса), int8 (активации и KV-кэш) с регрессией 0,4 %. Для ускорителей (например, Apple ANE и Qualcomm HTP) — 1,3 %.

В архитектуре — 30 слоёв, 20 голов внимания (4 из них KV), размер скрытого слоя 6144, словарь — 202 048 токенов. Всего 1,08 млрд параметров. Учителем при обучении выступала Llama 4-Scout.

В тестах модель показала: 67,1 % в HellaSwag, 76,2 % в BoolQ, 76,6 % в PIQA, 50,9 % в SocialIQA и 39,9 % в TriviaQA. В ARC-c — 52,6 %, в ARC-e — 76,3 %, в WinoGrande — 62,8 %.

Инструкционно-дообученная версия набрала 44,8 % в MMLU, 62 % в IFEval, 59,8 % в HumanEval и 58,4 % в HellaSwag.

Обучение проходило в три этапа: изучение языка, расширение контекста до 128k и обучение на разных доменах. Затем добавили Quantization-Aware Training (QAT) для 4-битных версий. Этап инструкционного дообучения включал SFT и DPO с акцентом на безопасность и точность.

Модель тестировалась на Samsung Galaxy S25 и S24. При 2 000 токенах предзагрузка заняла 8,9 с на CPU и 1,96 с на HTP, при 8 000 — 63,5 и 9,8 с соответственно.

MobileLLM-Pro обучена на 1,64 трлн токенов из открытых источников — образовательных, научных, кодовых и математических датасетов. Инструкционное дообучение проводилось на смешанных и синтетических наборах данных.

Модель распространяется под лицензией FAIR NC.