Пересобрать зрение и мозги? Google: «Легко». Gemini 3 Pro теперь ориентируется в пространстве лучше нас

Новый Gemini 3 Pro от Google обещает заменить ручной разбор отчётов, снимков и контрактов мощным визуальным интеллектом.

Компания Google представила Gemini 3 Pro — новое поколение мультимодальной модели, которая не просто «видит» изображения и видео, а умеет по-настоящему рассуждать о том, что на них происходит. По заявлению разработчиков, это самый мощный визуальный и пространственный ИИ Google: он устанавливает рекорды на бенчмарках по пониманию документов, экранов, сложных схем и длинных видео и уже ориентирован на конкретные прикладные сценарии — от образования и медицины до права и финансов.

Одно из ключевых направлений, где Gemini 3 Pro делает заметный скачок, — понимание реальных документов. В отличие от аккуратных учебных примеров, живые документы обычно представляют собой хаос: фотографии страниц, вперемешку картинки, таблицы, формулы, схемы, неразборчивый почерк, сложные макеты. Модель сочетает высокоточный OCR с визуальным и логическим анализом и умеет не только «читать» такой документ, но и восстанавливать его структуру в виде кода — HTML, LaTeX или Markdown. В качестве примеров приводятся реконструкция сложной рукописной таблицы из торгового журнала XVIII века, преобразование сфотографированной формулы в корректный LaTeX и превращение знаменитой диаграммы Флоренс Найтингейл в интерактивный график.

Дальше подключается более глубокое рассуждение. Gemini 3 Pro умеет шаг за шагом разбирать длинные отчёты с графиками и таблицами, сопоставляя цифры и текстовый анализ. В качестве демонстрации разработчики описывают, как модель анализирует 62-страничный отчёт Бюро переписи населения США «Доходы в США: 2022». ИИ находит нужные таблицы с индексом Джини для «денежного дохода» и «дохода после налогов», сравнивает изменения между 2021 и 2022 годами, затем связывает эти различия с описанием в тексте — например, с завершением антикризисных программ и стимульных выплат. После этого модель проверяет отдельную таблицу по доле доходов нижнего квинтиля и приходит к выводу, растёт ли доля самых малообеспеченных домохозяйств или падает. На тесте CharXiv Reasoning по подобным задачам Gemini 3 Pro даже превышает средний человеческий результат.

Существенно усилили и пространственное понимание. Gemini 3 Pro умеет «указывать» точные координаты объектов на изображении и работать с последовательностями таких точек. Это позволяет, например, оценивать позы людей или траектории движения. Модель использует открытый словарь — её можно попросить: «Составь план, как разобрать этот бардак на столе и разложить мусор», и она будет опираться не на жёстко заданные категории, а на понимание того, что за предметы перед ней и какова их роль. Аналогичным образом ИИ можно встроить в AR/XR-устройства: пользователь видит инструкцию и просит ассистента «покажи, на какой винт здесь указывает руководство» — модель выделяет нужный объект в реальной сцене.

Эти же возможности используются для понимания экранов. Google подчёркивает, что Gemini 3.0 Pro уверенно работает с интерфейсами настольных и мобильных ОС и может служить «двигателем» для агентов, которые берут на себя рутинные действия за компьютером. В демонстрации модель взаимодействует с таблицей в Excel: с высокой точностью кликает по нужным ячейкам, создаёт сводную таблицу и на отдельном листе формирует сводку по выручке в разрезе типов промоакций. Такой уровень понимания UI можно использовать в автоматизации тестирования, обучении пользователей и UX-аналитике.

Отдельный акцент сделан на видео. Gemini 3 Pro оптимизировали для работы с высокими частотами кадров — до 10 FPS, то есть в десять раз больше базового уровня. Это важно для задач, где нужно уловить мельчайшие детали движений, например при разборе механики спортивного удара. Кроме того, улучшен режим «thinking»: модель учится не просто перечислять, что происходит в кадре, но выстраивать причинно-следственные связи во времени и объяснять, почему события развиваются именно так. Ещё одна интересная возможность — превращать длинные ролики в структуру, пригодную для дальнейшей автоматизации: извлекать знания из лекций или обучающих видео и сразу же переводить их в работающий код или формализованные сценарии.

Google отдельно описывает потенциальные применения Gemini 3 Pro в ключевых отраслях. В образовании улучшенное «зрительное» мышление помогает разбирать задачи с диаграммами и рисунками по математике, физике, химии — от школьного уровня до университета. Модель способна разбирать олимпиадные визуальные задачи вроде Math Kangaroo и сложные схемы в естественных науках. На этом же стеке построен ассистент Nano Banana Pro: он, например, может поверх фотографии тетради показать, на каком шаге решения школьник ошибся, и выделить корректные правки прямо на изображении, а не в виде сухого текста.

В медицине и биомедицине Gemini 3 Pro позиционируют как наиболее мощную общую модель для работы с изображениями. Она показывает передовые результаты на открытых бенчмарках MedXpertQA-MM (сложный экзамен по медицинскому рассуждению), VQA-RAD (вопросы и ответы по радиологическим снимкам) и MicroVQA (анализ микроскопических изображений для биологических исследований). В числе примеров — работа с высоким увеличением, где нужно интерпретировать структуры на микроснимке и связывать их с диагнозом или экспериментальными условиями.

Юристы и финансисты, по замыслу Google, смогут использовать Gemini 3 Pro для разбора объёмных документов, договоров и отчётов. Платформы для работы с контрактами могут поручать модели сложные сценарии с множеством правок и сносками. Стартап Harvey.ai, работающий в сфере юридического ИИ, отмечает улучшения именно в продвинутом правовом рассуждении и понимании документов с «тяжёлыми» редлайнами, что особенно важно для корпоративных юристов с большим потоком внешних и внутренних договоров.

Для разработчиков в Gemini 3 Pro также переработали саму обработку визуальных данных. Модель теперь сохраняет исходное соотношение сторон изображений, что улучшает качество понимания в целом. Добавился параметр media_resolution, который позволяет управлять тем, с каким разрешением и, соответственно, с какими затратами ресурсов будет анализироваться картинка или видео. Высокое разрешение имеет смысл включать для задач, где важны мелкие детали — плотный текст, сложные документы, насыщенные сцены. Низкое — подходит для простого распознавания обстановки или работы с длинными контекстами, где критичны скорость и стоимость.

В совокупности Gemini 3 Pro выглядит как шаг от «узнавания» картинок к полноценному визуальному ИИ, который умеет связывать картинку, текст и действия. Google рассчитывает, что именно такие мультимодальные системы станут основой и для умных помощников, и для отраслевых решений — от роботов на складе до юрплатформ и обучающих сервисов.