Компания Google обучает роботов обучать других роботов

Роботы, обученные или обучившиеся сами выполнять некоторые действия, способны поделиться своим опытом с другими роботами, просто передав представленную в соответствующем виде информацию по сети. Данное понятие является основой так называемой «облачной робототехники», области, активно развиваемой сейчас специалистами компании Google. И практическое применение указанного выше принципа позволит роботам обмениваться своим опытом и навыками, благодаря чему каждому роботу не придется заново проходить процесс обучения при постановке ему совершенно новой задачи.

Человеческий мозг содержит миллиарды нейронов, между которыми формируется совсем уж непостижимое число нейронных связей. Эти связи определяют пути взаимодействия между нейронами и они определяют наше поведение, последовательность выполняемых действий и все остальное, характеризуемое понятиями опыт и память.

Искусственные нейронные сети имеют точно такое же строение и функционирование, правда в несколько меньших масштабах. Роботам с системами управления на базе нейронных сетей можно поставить задачу и они сами найдут путь ее максимальной эффективного решения, действуя путем проб и ошибок. В начале этого поиска все действия робота могут выглядеть бессмысленными и хаотичными для стороннего наблюдателя, но со временем робот сможет определить и использовать только те действия, которые приводят к выполнению поставленной перед ним задачи.

Такой процесс самообучения является эффективным, но он требует достаточно много времени. При помощи «облачной робототехники» роботы смогут обмениваться не только уже имеющимся у них опытом выполнения каких-либо действий, они также могут учиться совместно быстрей, разделяя длительный период самообучения на этапы, выполняемые параллельно несколькими однотипными роботами.

Создав первый вариант «облака», специалисты компании Google Research проверили работоспособность нового метода на трех различных задачах, поставленных перед несколькими роботами, которые имели одну общую нейронную сеть. Первой задачей стала задача открывания двери, которая должна была быть решена методом проб и ошибок. Как можно убедиться, просмотрев приведенный ниже видеоролик, роботы сначала «тычутся в двери как слепые котята», исследуя все доступные действия и выбирая те, которые ведут к выполнению поставленной цели.

Через несколько часов экспериментирования роботы все же самостоятельно выяснили, что для открывания двери требуется взяться за дверную ручку, повернуть и потянуть за нее. Можно сказать, что после этого они понимают, какая последовательность действий ведет к успешному выполнению задачи, но в их понимании полностью отсутствует модель, описывающая то, почему и как это все происходит.

Во втором эксперименте исследователи проверяли работу так называемой прогнозирующей модели. Каждому из роботов дали поднос, на котором находилось несколько предметов повседневного использования. «Играя» с этими предметами, роботы выработали некоторое понимание связи между причиной и последствиями своих действий. После того, как приобретенный опыт был распространен на всех роботов группы, получившаяся модель поведения могла быть использована для того, чтобы предсказать к какому результату сможет привести то или иное действие.

И третьим экспериментом являлось повторение первого эксперимента с открыванием двери. Разница заключалась в том, что процесс обучения роботов этому действию производился человеком-оператором, который выполнял пошаговое управление действиями робота. После этого перед роботами поставили задачу усовершенствовать приобретенный опыт путем проб и ошибок. «Коллективный разум» группы роботов быстро нашел оптимальные варианты, которые отличались немного различными положениями манипуляторов, углов поворота ручки и приложения тянущего усилия. А самым интересным моментом стал момент, когда одного из роботов, в «разуме» которого находился весь накопленный группой роботов опыт, заставили открывать дверь, на которой была установлена ручка совершенно нового типа.

Каков же большой смысл всего этого? Естественно, что нейронные сети, получающие большее количество исходных данных, смогут обучиться гораздо качественней. Поэтому группа роботов, совместно обучающихся выполнению какой-либо задачи, может прийти к положительному результату гораздо быстрей робота-одиночки, пытающегося постигнуть все тоже самое своими силами. И такое ускорение процесса обучения позволит промышленным и исследовательским роботам следующих поколений приступать к выполнению сложных задач гораздо быстрее, нежели при традиционном подходе.

Источник: dailytechinfo.org