DeepMind представила Gemini Robotics-ER 1.5 — ИИ-модель, которая научит роботов планировать и рассуждать

Первая общедоступная модель "воплощенного рассуждения" для робототехники.

25 сентября 2025 года Google DeepMind представила модель Gemini Robotics-ER 1.5, предназначенную для использования в робототехнике. Это первая версия системы «воплощённого рассуждения» (embodied reasoning), которая стала общедоступной для разработчиков.

Модель выполняет функции «высокоуровневого мозга» для робота: понимает команды на естественном языке, планирует многошаговые действия и организует сложные поведенческие цепочки. Она сочетает визуально-пространственное восприятие, оценку прогресса и возможность обращаться к сторонним инструментам, включая Google Search, API робота или модели типа VLA (vision-language-action).

Начать работу с системой можно уже сейчас через Google AI Studio и Gemini API. В блоге также опубликован технический отчёт с подробными результатами тестирования.

Одним из ключевых новшеств стала возможность быстрого и точного пространственного рассуждения при низкой задержке. Gemini Robotics-ER 1.5 может определять координаты объектов, исходя из их размеров, веса и свойств, и использовать эти данные для точных манипуляций.

Модель умеет распознавать сложные задачи вроде «разобрать рабочий стол по примеру на фото» или «сортировать мусор в соответствии с местными правилами», при этом обращаясь к интернет-источникам для уточнения информации. Для выполнения таких сценариев применяется пространственно-временное планирование и проверка успешности действий.

Отдельно разработчики выделяют функцию «thinking budget», позволяющую управлять балансом между скоростью отклика и точностью рассуждений. Для простых операций можно получить быстрый ответ, а при решении многошаговых задач модель будет «думать дольше».

Серьёзное внимание уделено безопасности. Gemini Robotics-ER 1.5 лучше распознаёт задачи, нарушающие физические ограничения робота, например, превышение грузоподъёмности. Также встроены фильтры для предотвращения генерации опасных или вредных планов. Оценка проводилась в том числе по ASIMOV Benchmark. При этом разработчики подчёркивают, что встроенные средства безопасности должны дополняться традиционными инженерными методами: системами аварийной остановки, предотвращением столкновений и анализом рисков.

На практике модель демонстрирует понимание последовательности действий. В экспериментах она описывала работу двух роботизированных рук, перемещающих предметы в контейнеры, с точной привязкой к временным меткам. В других примерах Gemini Robotics-ER 1.5 планировала процесс приготовления кофе: определяла, куда поставить кружку и капсулу, и строила траекторию закрытия крышки кофемашины.

Разработчики могут управлять глубиной рассуждений через параметры API, использовать готовые Colab-ноутбуки и подключать Python SDK для интеграции в собственные проекты.

Gemini Robotics-ER 1.5 позиционируется как базовый компонент для построения будущих систем робототехники, где ИИ будет соединять восприятие, планирование и физические действия.