Концепция: когда мы смотрим на стул, независимо от ее формы и цвета, мы знаем, что мы можем сидеть на нем. Когда рыба находится в воде, независимо от ее расположения, она знает, что может плавать. Это известно как теория допустимого, термин придумал психолог Джеймс Дж. Гибсон. В нем говорится, что, когда разумные существа смотрят на мир они воспринимают не просто объекты и их отношения, но и их возможности. Другими словами, председатель “дает” возможность сидеть. Вода “дает” возможность купания. Теория может частично объяснить, почему у животных интеллект так обобщать—мы часто сразу умеют взаимодействовать с новыми объектами, потому что мы признаем их функциональность.

Идея: исследователи DeepMind сейчас используют эту концепцию для разработки нового подхода к обучения с подкреплением. В традиционном обучении с подкреплением агент учится путем проб и ошибок, начиная с того, что любое действие возможно. Робот обучение для перемещения из точки А в точку Б, например, предположить, что он может двигаться через стены или мебель, пока постоянные неудачи сказать это иначе. По идее если робот был, а не первый учил функциональность своего окружения, он бы сразу ликвидировать значительную часть провалил испытания, которые ему придется выполнять. Это позволит сделать процесс обучения более эффективным и помочь ему обобщить в разных средах.

Эксперименты: ученые создали простой виртуальный сценарий. Они разместили виртуальный агент в 2D среде, со стеной по центру и агенту изучить его диапазон движения, пока он не узнал, что позволил бы это делать—его функциональность. Затем исследователи дали агенту набором простых целей для достижения путем обучения с подкреплением, такие как перемещение определенного количества направо или налево. Они обнаружили, что по сравнению с агентом, который не выучил возможности, его избегать каких-либо шагов, которые могли бы привести его к вам заблокирован стене на полпути через его движения, его установка эффективно достигать своей цели.

Почему это важно: работа все еще находится на ранних стадиях, поэтому ученые использовали только простой среде и примитивных целей. Но они надеются, что их первоначальные эксперименты помогут заложить теоретические основы для масштабирования идеи до гораздо более сложных действий. В будущем они видят такой подход позволяет роботу быстро оценить, насколько он может, скажем, налить жидкость в чашку. Разработав общее понимание, какие объекты себе возможность проведения жидкости и не, его не придется несколько раз пропустить чашку и залить жидкость по всему столу, чтобы узнать, как добиться своей цели.

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here