Часть четвертая. СТАНОВЛЕНИЕ ИНТЕЛЛЕКТА. Интеллект и эволюция. Аниматы

В когнитивной робототехнике основное внимание уделяется высшим познавательным функциям. Хотя по сравнению с классическим ИИ, в котором моделирование интеллекта начиналось с уровня сознания, здесь затрагиваются и более низкоуровневые механизмы, они выступают в качестве ненадежных промежуточных блоков. Нельзя ли все же начинать строительство здания ИИ не с крыши (сознания), а с фундамента — тех неосознаваемых процессов, которые постепенно формировались в ходе эволюции для обеспечения выживания животных и по отношению к которым сознание является лишь наиболее поздней надстройкой?

В таком ракурсе проблема ИИ рассматривается в рамках области исследования, называемой «Аниматы» (или, по-другому, «Адаптивное поведение» — АП). Название «анимат» происходит от соединения слов «animal»+«robot», т. е. «роботы-животные», под которыми подразумеваются некоторые искусственные (модельные) организмы, живущие в реальном или виртуальном мире. Иногда, абстрагируясь от связи с животными, исследователи называют свои детища просто интеллектуальными агентами.

Большое внимание здесь уделяется конструкции актуаторов (исполнительных устройств). В первую очередь решается проблема перемещения анимата, без которого затруднительно выполнять другие важные функции — взаимодействия с предметами, обеспечения выживания (получения энергии), а также социального взаимодействия. Наиболее простым решением (с точки зрения координации движения) является использование колес или гусениц, но это решение не позволяет эффективно перемещаться по сложной местности, например по лестницам. В связи с этим популярным является воспроизведение способов движения живых организмов. Интересный способ заимствуется у насекомых: использование шести ног при перемещении позволяет сохранять опору на три из них, что обеспечивает постоянное статическое равновесие. Более высокоразвитые животные обходятся меньшим числом ног, поэтому решения с четырьмя и двумя ногами представляют интерес в рамках АП. В случае четырех ног сохранение постоянного статического равновесия подразумевает отрывание от земли лишь одной ноги за раз, что приведет к очень медленному перемещению. Еще сложнее (и тем интереснее) движение на двух ногах: в этом случае, даже стоя на месте, приходится поддерживать равновесие, реагируя всем телом, ведь любое небольшое внешнее воздействие может привести к падению. Не менее интересными представляются попытки моделирования других способов перемещения, т. е. попытки научить роботов ползать, плавать, летать. Жестко запрограммированные движения будут чувствительны к любым неровностям. Строго описать все ответы на все возможные воздействия вряд ли возможно, особенно в условиях неполноты информации, поэтому вопросы адаптивного управления при организации движения оказываются крайне важными. Однако адаптация здесь обычно выполняется локально и на основе специфических эвристик. Еще более интересным является само адаптивное поведение: что оно собой представляет, какова должна быть архитектура систем управления, чтобы они могли обладать способностью приспосабливаться к изменяющейся внешней среде, и т. д.

Традиционные роботы, разрабатываемые в конкретных прикладных целях (и даже снабжаемые при этом когнитивными архитектурами), не демонстрируют такого же уровня адаптивности, как и животные. Недостаточная адаптивность проявляется в неспособности к автономному функционированию в заранее неизвестных условиях. С этим легко смириться, если робот удовлетворительно решает поставленную перед ним задачу. К примеру, то, что робот-пылесос может где-то застрять или заблудиться без возможности вернуться на базу для подзарядки, является неприятным, но не смертельным: владелец его спасет и даже облегчит ему работу, убрав разбросанные на полу вещи. То, что для большинства роботов лишь несущественно снижает потребительские качества, для животных означает неминуемую гибель. Многие ученые предполагают, что адаптивное поведение тесно связано с интеллектом, в связи с чем для ИИ моделирование пусть простых, но полностью самостоятельных организмов (аниматов) гораздо важнее, чем моделирование высших когнитивных функций или создание полезных, но узкоспециализированных роботов.

Официально направление «Адаптивное поведение» сформировалось в 1990 году после проведения в Париже Первой международной конференции «Симуляция адаптивного поведения (от животных к аниматам)». Стоит отметить, что это направление фактически существовало и раньше, в чем несложно убедиться по материалам книги М. Г. Газе-Рапопорта и Д. А. Поспелова «От амебы до робота: модели поведения», опубликованной в 1987 г. В качестве одной из ранних работ в этой области можно привести проект «Животное» под руководством советского кибернетика Михаила Моисеевича Бонгарда, проводившийся еще в 1960–1970-х годах, но по структуре соответствующий современным проектам в области АП.

Сегодня подобные исследования, однако, настолько более многочисленные, что даже сложно выбрать несколько основных или наиболее показательных проектов. Моделируются самые разнообразные животные: от насекомых (и даже червей) до обезьян. Цель создания аниматов тоже может быть самой разной: от разработки коммерческих домашних роботов-животных до изучения принципов адаптации в самом общем виде. Наиболее последовательными в рамках данного направления являются исследования простейших организмов, снабженных минимумом априорной информации об окружающем мире.

Представим себе «одноклеточного» анимата, перемещающегося на плоской поверхности в поисках пищи. Каким должен быть оптимальный алгоритм перемещения? Конечно, можно сказать, что, не зная свойств мира (т. е. не имея его модели), нельзя вывести оптимальный алгоритм. Но в том-то и проблема, что требуется организовать поведение анимата в заранее неизвестных условиях. Можно предложить некоторый регулярный способ перемещения, например, по расширяющейся спирали. Казалось бы, это максимально повысит вероятность нахождения пищи. Но легко представить себе мир, в котором пища распределена неравномерно, «островками». Тогда более эффективным будет алгоритм перемещения по прямой до первого попавшегося «островка» с последующим его обходом: анимат движется прямо, когда голоден, и по спирали, когда сыт. Однако можно представить себе и мир, в котором «пища» убегает от прямолинейно перемещающегося анимата, и ее можно достичь, только совершая резкие повороты. Для любого фиксированного алгоритма перемещения можно придумать мир, в котором этот алгоритм будет неэффективен. Более того, из всех возможных миров таковых будет большинство. Истинная неопределенность и заключается в том, что свойства внешнего мира могут оказаться любыми. Как не допустить того, чтобы алгоритм перемещения при этом оказался полностью непригодным?

Вопрос этот не столь праздный, ведь современные коммерческие роботы, не предназначенные для работы в детерминированных условиях, регулярно сталкиваются с непредвиденными разработчиками ситуациями. Чем жестче программа перемещения, заложенная в робота, тем вероятнее, что непредвиденная ситуация станет для нее фатальной.

Неопределенности окружающего мира можно лишь противопоставить разнообразие собственного поведения. Тогда простейший анимат должен просто совершать случайные действия. Когда никакой априорной информации нет, ничего другого и не остается. Этот рецепт кажется слишком простым. Чем он отличается от фиксированной программы? Посмотрим на цепочку действий, порожденных фиксированной программой. Ее алгоритмическая сложность будет ограниченной. В то же время алгоритмическая сложность цепочки, состоящей из случайных действий, будет постоянно увеличиваться с ростом длины цепочки (здесь принципиально наличие «неалгоритмического» источника хаоса). В такой цепочке можно найти любую подцепочку, поэтому при случайном выборе действий существует вероятность (хоть и, возможно, очень низкая) выжить в любом мире, в котором выживание в принципе возможно. Если вернуться к примеру с перемещением простейшего анимата на плоскости, то несложно увидеть, что случайные перемещения будут приемлемы для любого из рассмотренных вариантов размещения пищи.

В самом начале, при обсуждении лабиринтной гипотезы мышления, мы отметили важность перебора вариантов как одной из основ мышления. Однако эвристическое программирование развивалось преимущественно на примерах детерминированных формальных миров. Хотя мы отмечали беспорядочность поведения животных, встречающихся с неожиданным затруднением, из этого был сделан лишь вывод о том, что животными выполняется перебор вариантов. Теперь мы видим, что случайность этого перебора имеет принципиальное значение в условиях неопределенности.

Конечно, совершение просто случайных действий оказывается не самой эффективной стратегией и в простейших случаях. Совмещать регулярное и случайное поведение можно в рамках разных архитектур. В том числе могут использоваться и ИНС. Оказывается, даже простейшие, состоящие всего из нескольких нейронов (с источником случайной активности), сети способны обеспечивать интересное поведение. Пусть, к примеру, каждому из возможных действий поставлен в соответствие свой нейрон. Эти моторные нейроны соединены отрицательными связями и подавляют активность друг друга так, что лишь один из нейронов остается активным. Из-за случайного возбуждения активность нейронов со временем меняется. Если случайное возбуждение очень велико, то последовательность действий будет полностью случайной. В противном случае будут наблюдаться цепочки повторяющихся действий некоторой длины (например, движение в одном направлении на некоторое расстояние с последующей случайной сменой направления). Если в качестве действия выступает поворот, то, напротив, длительная активность одного нейрона будет означать более высокую кривизну траектории. Далее может быть добавлен сенсорный нейрон, который регулирует частоту переключений активности моторных нейронов в зависимости от присутствия пищи. Тогда в целом перемещения будут случайными, что обеспечит возможность анимату выходить из тупиковых ситуаций, но участки без пищи будут проходиться по более прямолинейным траекториям, что повысит эффективность поиска (если такая регулярность поведения не будет противоречить свойствам мира).

Подобная модель была, в частности, описана в работе В. А. Непомнящих «Модели автономного поискового поведения» (сборник «От моделей поведения к искусственному интеллекту»). Автор также отмечает, что сходное поведение проявляют многие животные, в частности, личинки златоглазки двигаются по слабо искривленным траекториям, пока не найдут тлю, которой питаются. После обнаружения одной особи тли кривизна траектории златоглазки возрастает для более детального обследования окрестностей, где ожидается присутствие других особей колонии тли. Аналогичное поведение проявляют и личинки ручейника, старающиеся на дне водоема найти наиболее подходящие частички для строительства «домика» вокруг себя.

Конечно, простейшие нейросетевые модели отнюдь не решают проблему адаптивного поведения. И дело здесь не в том, что из-за малого числа нейронов модель не показывает всего разнообразия форм поведения, доступных даже личинкам насекомых. Проблема заключается в том, что адаптивность здесь строится на основе априорной информации о мире (хотя и включает локальный учет информации, поступающей от сенсора). Хотя нередко и утверждается, что в подобных системах управления не используются никакие модели внешнего мира или даже сведения о нем, но неявно они, конечно же, в архитектуре ИНС содержатся. К примеру, что лучше для ручейника при строительстве домика: собирать частички найденного размера и формы или продолжить искать более подходящие частички? Для ответа на этот вопрос нужно знать вероятности нахождения тех или иных частичек. Кто-то скажет, что ручейник их «не знает». Но ручейник реализует поведение, которое эквивалентно использованию вполне конкретных вероятностей. Конечно, в отдельных поведенческих актах может проявляться неопределенность в значениях этих вероятностей, так что в идентичных ситуациях ручейник будет вести себя по-разному, но все же в среднем выбор ручейника будет отвечать некоторым вероятностям. Если анимата, управляемого описанной ИНС, поместить в среду с другими свойствами, то его поведение будет менее эффективным, чем поведение с полностью случайным выбором действий. Настоящая адаптивность подразумевает, что связи в такой сети должны настраиваться на основе опыта.

Естественно, без решения фундаментальных проблем машинного обучения адаптивность поведения аниматов, будь оно основано на нейросетевых или каких-либо других технологиях, останется существенно ограниченной. Но даже без решения этих фундаментальных проблем исследование адаптивного поведения позволяет выявить некоторые дополнительные важные аспекты интеллекта.

В наиболее простом виде взаимодействие анимата со средой описывается представленной ниже схемой. Анимат обладает набором эффекторов, с помощью которых может совершать действия, а также набором сенсоров, получающих информацию о мире. Далее ставится вопрос о конкретизации этих общих блоков (особенно системы управления). Такое уточнение может браться как из работ по исследованию естественных систем адаптивного поведения (к примеру, в этих целях широко используется теория функциональных систем Анохина), так и подбираться искусственно для проверки какой-либо идеи. В качестве примера такой идеи можно привести проверку значимости мотивационных центров, блоков планирования или долговременной памяти.

formula_23

 

Приведенная схема не отражает временных характеристик поведения, но понятно, что динамика взаимодействия с внешним миром, являющимся неограниченным источником неопределенности, представляет наибольший интерес. Тем не менее уже на этой схеме видно, что помимо рецепторов и эффекторов аниматы должны обладать еще одним каналом для получения «информации» из внешнего мира — «телом», через которое анимат узнает об успешности своего поведения.

В простейшем случае от «тела» используется только один канал «хорошо/плохо» (по нему могут передаваться как бинарные, так и вещественные значения). Полезность этого канала сложно переоценить. Благодаря нему становится возможным обучение с подкреплением. В рамках этого обучения строятся такая модель мира и стратегия поведения, которые позволяют максимизировать целевую функцию, задаваемую средой. К обучению этого типа можно, в частности, отнести формирование условного рефлекса. Проблема здесь, однако, в том, что подкрепление или наказание могут заметно отстоять во времени от вызвавшего их действия. В связи с этим в теории обучения с подкреплением приходится рассматривать более сложные по сравнению с условным рефлексом методы. В следующем по сложности случае (после случая безусловного стимула, непосредственно следующего за выполненным действием) количество состояний внешнего мира и количество возможных действий считается конечным (и небольшим). Тогда удается оценить вероятности перехода мира из одного состояния в другое в зависимости от последовательности совершаемых действий, а также узнать, какие состояния мира соответствуют подкреплению и наказанию. На основе этих данных уже можно выработать правила выбора действия в зависимости от состояния мира.

Конечно, даже в простых игровых мирах число состояний невообразимо велико. Что уж говорить о реальном мире? Для применения методов данного типа нужно как-то обобщать как состояния мира, так и собственные действия (проблема такого обобщения уже кратко обсуждалась нами на примере формирования условных рефлексов). Как в природе животным удается успешно обучаться на основе подкрепления? Конечно, обучение сложным навыкам идет в стиле обучения с учителем. Для этого в частности широко используются специальные методы подражания, которые совместно с другими видами социального взаимодействия сейчас стало популярным моделировать на базе аниматов и когнитивных роботов. Однако исходно эти навыки должны вырабатываться при обучении с подкреплением. Помимо большей эффективности самих методов обучения, детально проработанных в ходе эволюции, важную роль могут играть такие «телесные» механизмы, как потребности, мотивация, эмоции.