Хватит болтать, просто нажми кнопку. Как новая нейросеть Microsoft учится не тратить ваше время на пустые рассуждения
NewsMakerНовая открытая модель на 15 млрд параметров читает экраны, решает задачи и экономит вычислительные ресурсы.
Microsoft решила доказать, что для сильной мультимодальной модели не всегда нужны гигантские размеры и прожорливость к вычислениям. Компания представила Phi-4-reasoning-vision-15B, открытую модель на 15 млрд параметров, которая умеет работать с изображениями, документами, графиками, интерфейсами компьютеров и смартфонов, а заодно неплохо справляется с задачами по математике и естественным наукам. По замыслу разработчиков, новинка должна закрыть сразу две боли рынка: высокую задержку крупных vision-language моделей и слишком высокую цену запуска в реальных сервисах.
Microsoft делает ставку на прагматичный подход. Вместо гонки за максимальным числом параметров команда собрала модель, которую можно использовать для широкого набора задач: от генерации подписей к фотографиям и разбора чеков до чтения документов, ответа на вопросы по картинкам и анализа изменений в последовательности изображений. Отдельный акцент компания сделала на понимании экранов и графических интерфейсов. Phi-4-reasoning-vision-15B умеет распознавать кнопки, меню, поля ввода и другие элементы, поэтому модель предлагают использовать как основу для агентных систем, которые работают с настольными приложениями, сайтами и мобильными интерфейсами.
Главная идея проекта проста: компактная модель должна отвечать быстро и не тратить лишние токены там, где длинные рассуждения не приносят пользы. Для задач вроде OCR, описания картинок или простого визуального вопроса модель обычно отвечает напрямую. Для математики, науки и более сложных сценариев Phi-4-reasoning-vision-15B включает режим пошагового рассуждения. Microsoft называет такой подход смешанным: модель сама выбирает, когда думать длинно, а когда лучше дать короткий и прямой ответ. В компании признают, что граница между двумя режимами пока далека от идеала, но считают компромисс удачным с точки зрения баланса между скоростью, точностью и стоимостью вывода.
Разработчики отдельно подчеркивают, что модель обучали заметно экономнее многих конкурентов. Для мультимодального обучения использовали около 200 млрд токенов данных, тогда как у ряда других открытых vision-language моделей похожего класса объемы переваливают за триллион токенов. Основой послужили наработки Phi-4 и Phi-4-Reasoning, а в качестве визуального энкодера Microsoft выбрала SigLIP-2 в варианте Naflex с динамическим разрешением. Внутренние эксперименты показали, что такой подход особенно полезен на насыщенных деталями изображениях, включая скриншоты с мелкими элементами интерфейса.
Microsoft решила доказать, что для сильной мультимодальной модели не всегда нужны гигантские размеры и прожорливость к вычислениям. Компания представила Phi-4-reasoning-vision-15B, открытую модель на 15 млрд параметров, которая умеет работать с изображениями, документами, графиками, интерфейсами компьютеров и смартфонов, а заодно неплохо справляется с задачами по математике и естественным наукам. По замыслу разработчиков, новинка должна закрыть сразу две боли рынка: высокую задержку крупных vision-language моделей и слишком высокую цену запуска в реальных сервисах.
Microsoft делает ставку на прагматичный подход. Вместо гонки за максимальным числом параметров команда собрала модель, которую можно использовать для широкого набора задач: от генерации подписей к фотографиям и разбора чеков до чтения документов, ответа на вопросы по картинкам и анализа изменений в последовательности изображений. Отдельный акцент компания сделала на понимании экранов и графических интерфейсов. Phi-4-reasoning-vision-15B умеет распознавать кнопки, меню, поля ввода и другие элементы, поэтому модель предлагают использовать как основу для агентных систем, которые работают с настольными приложениями, сайтами и мобильными интерфейсами.
Главная идея проекта проста: компактная модель должна отвечать быстро и не тратить лишние токены там, где длинные рассуждения не приносят пользы. Для задач вроде OCR, описания картинок или простого визуального вопроса модель обычно отвечает напрямую. Для математики, науки и более сложных сценариев Phi-4-reasoning-vision-15B включает режим пошагового рассуждения. Microsoft называет такой подход смешанным: модель сама выбирает, когда думать длинно, а когда лучше дать короткий и прямой ответ. В компании признают, что граница между двумя режимами пока далека от идеала, но считают компромисс удачным с точки зрения баланса между скоростью, точностью и стоимостью вывода.
Разработчики отдельно подчеркивают, что модель обучали заметно экономнее многих конкурентов. Для мультимодального обучения использовали около 200 млрд токенов данных, тогда как у ряда других открытых vision-language моделей похожего класса объемы переваливают за триллион токенов. Основой послужили наработки Phi-4 и Phi-4-Reasoning, а в качестве визуального энкодера Microsoft выбрала SigLIP-2 в варианте Naflex с динамическим разрешением. Внутренние эксперименты показали, что такой подход особенно полезен на насыщенных деталями изображениях, включая скриншоты с мелкими элементами интерфейса.