Знакомьтесь, ваша замена: робот GEN-1 складывает сотни футболок без ошибок. И не устаёт ни на секунду
NewsMakerЖелезка собирает коробку за 12 секунд. Человек — за 34. Добро пожаловать в будущее.
Нейросети научились писать тексты и генерировать картинки, но с физическим миром всё долго оставалось сложнее. Новый проект GEN-1 показывает, что ситуация начинает меняться: модель впервые довела выполнение простых действий до уровня, который можно использовать не в демонстрациях, а в реальной работе.
Разработчики называют GEN-1 универсальной системой для управления роботами . Модель принимает визуальные и другие входные данные и сразу выдаёт действия в реальном времени. В основе лежит масштабирование подхода, который команда ранее проверила на версии GEN-0. Тогда удалось показать, что обучение роботов подчиняется тем же законам масштабирования , что и языковые модели: больше данных и вычислений дают предсказуемый рост качества.
В новой версии эффект стал заметен на практике. На ряде задач уровень успешного выполнения достиг примерно 99%. Для сравнения, предыдущие модели в среднем давали около 64%. При этом GEN-1 справляется быстрее: в отдельных сценариях время выполнения сократилось почти втрое. Важная деталь — для дообучения под конкретную задачу требуется около одного часа данных с реального робота.
Модель обучалась на массиве из более чем 500 тысяч часов взаимодействия с физическим миром. При этом базовое предобучение вообще не использует данные с роботов. Вместо этого применяют записи действий людей, полученные с носимых устройств. Такой подход позволяет резко снизить стоимость обучения и не зависеть от дорогих телеметрических или симуляционных наборов данных.
Нейросети научились писать тексты и генерировать картинки, но с физическим миром всё долго оставалось сложнее. Новый проект GEN-1 показывает, что ситуация начинает меняться: модель впервые довела выполнение простых действий до уровня, который можно использовать не в демонстрациях, а в реальной работе.
Разработчики называют GEN-1 универсальной системой для управления роботами . Модель принимает визуальные и другие входные данные и сразу выдаёт действия в реальном времени. В основе лежит масштабирование подхода, который команда ранее проверила на версии GEN-0. Тогда удалось показать, что обучение роботов подчиняется тем же законам масштабирования , что и языковые модели: больше данных и вычислений дают предсказуемый рост качества.
В новой версии эффект стал заметен на практике. На ряде задач уровень успешного выполнения достиг примерно 99%. Для сравнения, предыдущие модели в среднем давали около 64%. При этом GEN-1 справляется быстрее: в отдельных сценариях время выполнения сократилось почти втрое. Важная деталь — для дообучения под конкретную задачу требуется около одного часа данных с реального робота.
Модель обучалась на массиве из более чем 500 тысяч часов взаимодействия с физическим миром. При этом базовое предобучение вообще не использует данные с роботов. Вместо этого применяют записи действий людей, полученные с носимых устройств. Такой подход позволяет резко снизить стоимость обучения и не зависеть от дорогих телеметрических или симуляционных наборов данных.