Meta показала MobileLLM-Pro — модель, которая работает без облака и вмещает 128 тыс. токенов
NewsMakerМодель с 1 млрд параметров не требует подключения к облаку.
Meta Reality Labs представила MobileLLM-P1 (Pro) — компактную языковую модель на 1 млрд параметров, созданную для работы без подключения к облаку. Она умеет выполнять привычные задачи вроде ответов на вопросы, перефразирования и суммаризации текста прямо на устройстве. Модель и её файлы доступны на Hugging Face .
В серии MobileLLM вышло два варианта: базовый и дообученный по инструкциям. Оба открыты и включают готовые контрольные точки (checkpoints) для CPU и мобильных ускорителей.
По данным Meta, базовая MobileLLM-Pro показывает лучшие результаты, чем Gemma 3 1B и Llama 3.2 1B — на 5,7 % и 7,9 % выше в задачах рассуждения, извлечения знаний и работы с длинным контекстом. При этом модель обучалась на объёме менее 2 трлн полностью открытых токенов.
Контекст у модели — до 128 000 токенов. Это позволяет анализировать длинные документы и извлекать информацию из больших текстов. Чтобы ускорить работу, разработчики используют комбинацию локального и глобального внимания (соотношение 3:1). Такой подход снижает задержку почти в два раза и уменьшает объём KV-кэша с 117 МБ до 40 МБ.
MobileLLM-Pro поддерживает 4-битную квантизацию с минимальными потерями качества — не более 1,3 %. Для CPU используется int4 (веса), int8 (активации и KV-кэш) с регрессией 0,4 %. Для ускорителей (например, Apple ANE и Qualcomm HTP) — 1,3 %.
В архитектуре — 30 слоёв, 20 голов внимания (4 из них KV), размер скрытого слоя 6144, словарь — 202 048 токенов. Всего 1,08 млрд параметров. Учителем при обучении выступала Llama 4-Scout.
В тестах модель показала: 67,1 % в HellaSwag, 76,2 % в BoolQ, 76,6 % в PIQA, 50,9 % в SocialIQA и 39,9 % в TriviaQA. В ARC-c — 52,6 %, в ARC-e — 76,3 %, в WinoGrande — 62,8 %.
Инструкционно-дообученная версия набрала 44,8 % в MMLU, 62 % в IFEval, 59,8 % в HumanEval и 58,4 % в HellaSwag.
Обучение проходило в три этапа: изучение языка, расширение контекста до 128k и обучение на разных доменах. Затем добавили Quantization-Aware Training (QAT) для 4-битных версий. Этап инструкционного дообучения включал SFT и DPO с акцентом на безопасность и точность.
Модель тестировалась на Samsung Galaxy S25 и S24. При 2 000 токенах предзагрузка заняла 8,9 с на CPU и 1,96 с на HTP, при 8 000 — 63,5 и 9,8 с соответственно.
MobileLLM-Pro обучена на 1,64 трлн токенов из открытых источников — образовательных, научных, кодовых и математических датасетов. Инструкционное дообучение проводилось на смешанных и синтетических наборах данных.
Модель распространяется под лицензией FAIR NC.

Meta Reality Labs представила MobileLLM-P1 (Pro) — компактную языковую модель на 1 млрд параметров, созданную для работы без подключения к облаку. Она умеет выполнять привычные задачи вроде ответов на вопросы, перефразирования и суммаризации текста прямо на устройстве. Модель и её файлы доступны на Hugging Face .
В серии MobileLLM вышло два варианта: базовый и дообученный по инструкциям. Оба открыты и включают готовые контрольные точки (checkpoints) для CPU и мобильных ускорителей.
По данным Meta, базовая MobileLLM-Pro показывает лучшие результаты, чем Gemma 3 1B и Llama 3.2 1B — на 5,7 % и 7,9 % выше в задачах рассуждения, извлечения знаний и работы с длинным контекстом. При этом модель обучалась на объёме менее 2 трлн полностью открытых токенов.
Контекст у модели — до 128 000 токенов. Это позволяет анализировать длинные документы и извлекать информацию из больших текстов. Чтобы ускорить работу, разработчики используют комбинацию локального и глобального внимания (соотношение 3:1). Такой подход снижает задержку почти в два раза и уменьшает объём KV-кэша с 117 МБ до 40 МБ.
MobileLLM-Pro поддерживает 4-битную квантизацию с минимальными потерями качества — не более 1,3 %. Для CPU используется int4 (веса), int8 (активации и KV-кэш) с регрессией 0,4 %. Для ускорителей (например, Apple ANE и Qualcomm HTP) — 1,3 %.
В архитектуре — 30 слоёв, 20 голов внимания (4 из них KV), размер скрытого слоя 6144, словарь — 202 048 токенов. Всего 1,08 млрд параметров. Учителем при обучении выступала Llama 4-Scout.
В тестах модель показала: 67,1 % в HellaSwag, 76,2 % в BoolQ, 76,6 % в PIQA, 50,9 % в SocialIQA и 39,9 % в TriviaQA. В ARC-c — 52,6 %, в ARC-e — 76,3 %, в WinoGrande — 62,8 %.
Инструкционно-дообученная версия набрала 44,8 % в MMLU, 62 % в IFEval, 59,8 % в HumanEval и 58,4 % в HellaSwag.
Обучение проходило в три этапа: изучение языка, расширение контекста до 128k и обучение на разных доменах. Затем добавили Quantization-Aware Training (QAT) для 4-битных версий. Этап инструкционного дообучения включал SFT и DPO с акцентом на безопасность и точность.
Модель тестировалась на Samsung Galaxy S25 и S24. При 2 000 токенах предзагрузка заняла 8,9 с на CPU и 1,96 с на HTP, при 8 000 — 63,5 и 9,8 с соответственно.
MobileLLM-Pro обучена на 1,64 трлн токенов из открытых источников — образовательных, научных, кодовых и математических датасетов. Инструкционное дообучение проводилось на смешанных и синтетических наборах данных.
Модель распространяется под лицензией FAIR NC.