Взять, положить, открыть — и все не так. Microsoft показала, почему роботы до сих пор путаются в простейших действиях
NewsMakerКак компания решает проблему, о которой молчат разработчики?
Роботы до сих пор часто спотыкаются на задаче, которая человеку кажется почти элементарной: мало понять, что именно нужно сделать, еще нужно правильно связать действие с конкретным предметом и местом в реальном пространстве. Microsoft вместе с группой университетских исследователей решила заняться именно этим узким, но очень болезненным местом. Команда представила новый тест GroundedPlanBench , который проверяет, умеет ли модель одновременно строить план действий и точно привязывать каждый шаг к объекту на изображении.
Обычно робот сначала получает словесный план от одной модели, а потом другая модель пытается перевести его в набор физических действий. На практике два этапа плохо стыкуются. Ошибка, которая появилась при составлении плана, спокойно переезжает дальше, а на выходе робот либо берется не за тот предмет, либо делает лишнее, о чем его вообще не просили.
Такие сбои проявляются даже в простых ситуациях. Если поручить машине выбросить бумажные стаканчики, она может перепутать, какой именно стакан нужно взять, или внезапно добавить шаги, которых в инструкции не было. Чем сильнее загромождено пространство, тем чаще возникают такие промахи. Причина в том, что планирование и пространственная привязка живут отдельно друг от друга. Одна часть системы решает, что делать, другая пытается угадать, где именно это делать, и на стыке все начинает ломаться.
В новом тесте недостаточно просто выдать правильную последовательность действий в текстовом виде. Каждый шаг нужно жестко связать с конкретной точкой или объектом на изображении. Базовые действия вроде взять, положить, открыть или закрыть идут не сами по себе, а вместе с указанием, к чему именно они относятся. Такая постановка заставляет модель не рассуждать в отрыве от мира, а сразу держать в голове физическую обстановку.
Роботы до сих пор часто спотыкаются на задаче, которая человеку кажется почти элементарной: мало понять, что именно нужно сделать, еще нужно правильно связать действие с конкретным предметом и местом в реальном пространстве. Microsoft вместе с группой университетских исследователей решила заняться именно этим узким, но очень болезненным местом. Команда представила новый тест GroundedPlanBench , который проверяет, умеет ли модель одновременно строить план действий и точно привязывать каждый шаг к объекту на изображении.
Обычно робот сначала получает словесный план от одной модели, а потом другая модель пытается перевести его в набор физических действий. На практике два этапа плохо стыкуются. Ошибка, которая появилась при составлении плана, спокойно переезжает дальше, а на выходе робот либо берется не за тот предмет, либо делает лишнее, о чем его вообще не просили.
Такие сбои проявляются даже в простых ситуациях. Если поручить машине выбросить бумажные стаканчики, она может перепутать, какой именно стакан нужно взять, или внезапно добавить шаги, которых в инструкции не было. Чем сильнее загромождено пространство, тем чаще возникают такие промахи. Причина в том, что планирование и пространственная привязка живут отдельно друг от друга. Одна часть системы решает, что делать, другая пытается угадать, где именно это делать, и на стыке все начинает ломаться.
В новом тесте недостаточно просто выдать правильную последовательность действий в текстовом виде. Каждый шаг нужно жестко связать с конкретной точкой или объектом на изображении. Базовые действия вроде взять, положить, открыть или закрыть идут не сами по себе, а вместе с указанием, к чему именно они относятся. Такая постановка заставляет модель не рассуждать в отрыве от мира, а сразу держать в голове физическую обстановку.