Больше не нужно программировать каждый чих: этот ИИ сам разберется, как взять чашку и не разбить её
NewsMakerNVIDIA заменила кучу скриптов одной моделью, которая реально понимает физику.
NVIDIA представила Cosmos Policy , новый способ управлять роботами, который вырастает из идеи «мировых моделей» для физического ИИ. Смысл подхода в том, чтобы упростить принятие решений: вместо сложных наборов отдельных алгоритмов компания предлагает одну модель, которая одновременно понимает, что происходит вокруг, прогнозирует развитие ситуации и выбирает действия.
В робототехнике «политикой» называют слой, который переводит данные с камер и датчиков в реальные движения: повороты суставов, захваты, перемещения. Обычно такие системы собирают из нескольких частей. Отдельно идет распознавание, отдельно планирование, отдельно управление. Почти всегда под каждую задачу делают свою нейросеть , долго настраивают ее под конкретного робота и среду, обучают на больших объемах размеченных данных. При смене условий все приходится адаптировать заново.
Cosmos Policy работает иначе. NVIDIA берет уже обученную видеомодель Cosmos Predict, которая умеет предсказывать, как со временем меняется физический мир. Она обучалась на больших массивах видео и уже понимает движение объектов и взаимодействия в пространстве. Затем эту модель дообучают на записях того, как люди управляют роботами. Внутрь модели встраиваются действия, состояния системы и результаты задач. В итоге она начинает не просто наблюдать происходящее, а сразу предсказывать, какое действие нужно выполнить и к чему оно приведет.
Одна модель сразу решает несколько задач: выбирает действие, прогнозирует будущее состояние и оценивает, приведет ли это к успешному результату. Не нужно связывать между собой разные нейросети для зрения, планирования и управления. Вся логика работает в одной системе, что делает архитектуру проще и понятнее.
NVIDIA представила Cosmos Policy , новый способ управлять роботами, который вырастает из идеи «мировых моделей» для физического ИИ. Смысл подхода в том, чтобы упростить принятие решений: вместо сложных наборов отдельных алгоритмов компания предлагает одну модель, которая одновременно понимает, что происходит вокруг, прогнозирует развитие ситуации и выбирает действия.
В робототехнике «политикой» называют слой, который переводит данные с камер и датчиков в реальные движения: повороты суставов, захваты, перемещения. Обычно такие системы собирают из нескольких частей. Отдельно идет распознавание, отдельно планирование, отдельно управление. Почти всегда под каждую задачу делают свою нейросеть , долго настраивают ее под конкретного робота и среду, обучают на больших объемах размеченных данных. При смене условий все приходится адаптировать заново.
Cosmos Policy работает иначе. NVIDIA берет уже обученную видеомодель Cosmos Predict, которая умеет предсказывать, как со временем меняется физический мир. Она обучалась на больших массивах видео и уже понимает движение объектов и взаимодействия в пространстве. Затем эту модель дообучают на записях того, как люди управляют роботами. Внутрь модели встраиваются действия, состояния системы и результаты задач. В итоге она начинает не просто наблюдать происходящее, а сразу предсказывать, какое действие нужно выполнить и к чему оно приведет.
Одна модель сразу решает несколько задач: выбирает действие, прогнозирует будущее состояние и оценивает, приведет ли это к успешному результату. Не нужно связывать между собой разные нейросети для зрения, планирования и управления. Вся логика работает в одной системе, что делает архитектуру проще и понятнее.