Пересобрать зрение и мозги? Google: «Легко». Gemini 3 Pro теперь ориентируется в пространстве лучше нас

Новый Gemini 3 Pro от Google обещает заменить ручной разбор отчётов, снимков и контрактов мощным визуальным интеллектом.


vzqx0qh1u9blf9mtimmze2cnzp932v2g.png

Компания Google представила Gemini 3 Pro — новое поколение мультимодальной модели, которая не просто «видит» изображения и видео, а умеет по-настоящему рассуждать о том, что на них происходит. По заявлению разработчиков, это самый мощный визуальный и пространственный ИИ Google: он устанавливает рекорды на бенчмарках по пониманию документов, экранов, сложных схем и длинных видео и уже ориентирован на конкретные прикладные сценарии — от образования и медицины до права и финансов.

Одно из ключевых направлений, где Gemini 3 Pro делает заметный скачок, — понимание реальных документов. В отличие от аккуратных учебных примеров, живые документы обычно представляют собой хаос: фотографии страниц, вперемешку картинки, таблицы, формулы, схемы, неразборчивый почерк, сложные макеты. Модель сочетает высокоточный OCR с визуальным и логическим анализом и умеет не только «читать» такой документ, но и восстанавливать его структуру в виде кода — HTML, LaTeX или Markdown. В качестве примеров приводятся реконструкция сложной рукописной таблицы из торгового журнала XVIII века, преобразование сфотографированной формулы в корректный LaTeX и превращение знаменитой диаграммы Флоренс Найтингейл в интерактивный график.

Дальше подключается более глубокое рассуждение. Gemini 3 Pro умеет шаг за шагом разбирать длинные отчёты с графиками и таблицами, сопоставляя цифры и текстовый анализ. В качестве демонстрации разработчики описывают, как модель анализирует 62-страничный отчёт Бюро переписи населения США «Доходы в США: 2022». ИИ находит нужные таблицы с индексом Джини для «денежного дохода» и «дохода после налогов», сравнивает изменения между 2021 и 2022 годами, затем связывает эти различия с описанием в тексте — например, с завершением антикризисных программ и стимульных выплат. После этого модель проверяет отдельную таблицу по доле доходов нижнего квинтиля и приходит к выводу, растёт ли доля самых малообеспеченных домохозяйств или падает. На тесте CharXiv Reasoning по подобным задачам Gemini 3 Pro даже превышает средний человеческий результат.

Существенно усилили и пространственное понимание. Gemini 3 Pro умеет «указывать» точные координаты объектов на изображении и работать с последовательностями таких точек. Это позволяет, например, оценивать позы людей или траектории движения. Модель использует открытый словарь — её можно попросить: «Составь план, как разобрать этот бардак на столе и разложить мусор», и она будет опираться не на жёстко заданные категории, а на понимание того, что за предметы перед ней и какова их роль. Аналогичным образом ИИ можно встроить в AR/XR-устройства: пользователь видит инструкцию и просит ассистента «покажи, на какой винт здесь указывает руководство» — модель выделяет нужный объект в реальной сцене.