Неоднозначность и адаптивный резонанс

Исследования зрительной системы показывают, что обработка информации в ней организована иерархически, т. е. с разделением по уровням: на начальных уровнях нейроны реагируют на простые стимулы, и нейроны каждого последующего уровня собирают информацию с групп нейронов предыдущих уровней, избирательно реагируя на все более сложные стимулы. Почему же зрительная система устроена таким образом?

Можно полагать, что такая структура зрительной системы обусловлена иерархичностью организации самого мира. Ведь, действительно, каждый объект состоит из совокупности меньших объектов: так, лес состоит из деревьев, деревья — из ствола и ветвей, которые сами по себе образуют иерархическую структуру, и так далее. Однако даже до выделения каких-либо целостных объектов в зрительной системе присутствует много уровней обработки, связанных с описанием изображения в терминах контуров, простых и составных структурных элементов, а также цветовых и текстурных свойств и т. д. Зачем выделяются на изображении такие элементы? Почему нельзя непосредственно распознавать разные объекты и уже на их основе строить иерархические описания сцен?

То, что объект следует распознавать по совокупности его частей, кажется вполне естественным. Многие начинающие специалисты в автоматическом распознавании изображений высказывают такую идею. Так, лицо можно распознать как совокупность определенным образом расположенных глаз, носа и ушей, дом — как совокупность стен, окон, дверей и крыши, и т. д. Однако эта очевидность обманчива: ведь как распознавать простые элементы? Откуда мы знаем, что некоторый объект именно ножка стола, а не просто палка или ручка от какого-то спортивного снаряда? Да и как установить, что некоторая группа пикселей на изображении — отдельный объект?

Проблема заключается в том, что изображение исходно представляется в зрительной системе почти как в компьютере: каждая палочка или колбочка отвечает лишь за один «пиксель» изображения. Как из этих отдельных пикселей сформировать целостный образ? Можно было бы перебирать все возможные области на изображении и определять, на какой из объектов каждая из таких гипотетических областей похожа. Несложно догадаться, что число разных вариантов разделения изображения на области чрезвычайно большое — оно экспоненциально растет с ростом размера изображения, поэтому задача интерпретации изображений является NP-полной. Это означает то, что идеальное решение этой задачи невозможно за обозримое время. Но ведь зрительная система как-то с ней справляется! Значит ли это, что мозг все же может решать быстро NP-полные задачи?

Если присмотреться к зрительной системе (равно как и к другим сенсорным системам человека), то следует признать, что она работает очень хорошо, но не идеально: нередко мы не можем сразу понять, что же все-таки видим, а иногда и совсем обманываемся. Если не считать, что зрительная система с помощью какого-то чуда идеально решает NP-полную задачу интерпретации изображений, то стоит задуматься, не связаны ли особенности ее строения (в частности, иерархичность) с эффективным приближенным решением задачи интерпретации…

И можно смело утверждать, что это действительно так: если бы естественные нейронные сети обладали чудесной способностью «неалгоритмического» решения NP-полных задач, зрительной системе не нужно было бы обладать столь сложной структурой. Да и в компьютерном зрении иерархичность используется для той же цели — добиться решения задач анализа изображений за реалистичное время при незначительных потерях в качестве решения. Почему же происходит потеря качества?

По сути, в иерархических методах общая задача анализа изображений (или другой сенсорной информации) разбивается на подзадачи, которые решаются независимо, например, каждый нейрон стриарной коры реагирует на свой локальный стимул без учета всего изображения. Лишь на следующих уровнях анализа реакция на эти стимулы объединяется для того, чтобы выделить более сложные стимулы. Но откуда известно, что простые стимулы без учета окружения будут выделены оптимально?

К примеру, хорошо известно, что если взять фрагмент изображения с небольшим объектом, то может оказаться практически невозможно распознать объект, который легко узнается на исходном изображении. Так, на рисунке приведены отдельно два объекта, один из которых присутствует на полном изображении.

formula_19

 

Как только мы видим, что это аэрокосмический снимок, мы можем легко распознать в белом прямоугольнике здание. Второй отдельный объект отсутствует на этом изображении, и узнать его не так просто. Хотя по виду он мало отличается от первого объекта, в действительности он является вовсе не домом. Чтобы распознать его, достаточно взглянуть на фотоснимок потолка.

formula_20

 

Получается, что объекты нередко нельзя распознать по отдельности. Скажем, ножку, отделенную от стула, узнать гораздо труднее, чем ножку, присоединенную к стулу. Но как же тогда распознается весь стул, если не как совокупность правильно расположенных ножек, сиденья и спинки? Если на каждом уровне иерархического анализа существует вероятность неправильно распознать какой-то элемент изображения или объект, то с увеличением уровней качество распознавания должно все больше ухудшаться! Если мы просто распознаем маленькие детали и последовательно объединяем их в более масштабные объекты, то почему мы все же ножку в составе стула узнаем лучше, чем отдельную ножку — ведь она должна распознаваться раньше, чем весь стул? Все то же самое относится не только к объектам, но и к промежуточным структурным описаниям: если на зашумленном изображении представлен квадрат, то выделенные по отдельности его границы окажутся непараллельными. Можно будет даже ошибиться с числом его вершин из-за сглаженности углов на контурах.

Из-за этой трудности рядом исследователей была поддержана гипотеза, согласно которой изображение, наоборот, сначала интерпретируется в целом, сюжетно (как лес, город, комната, т. е. некоторый сюжет), а затем уже распознаются детали этого изображения от крупных к маленьким. Эта гипотеза объясняла бы надежность зрительного восприятия, если бы описывала, как именно можно распознавать сцены до распознавания отдельных объектов. Иногда говорят, что разные полушария мозга руководствуются разной стратегией интерпретации сенсорной информации: правое полушарие воспринимает изображение одновременно в целом, а левое последовательно анализирует детали.

Существуют такие повреждения правого полушария мозга, при которых нарушается способность формировать целостный образ из отдельных деталей. Один случай такой агнозии (расстройства в распознавании и восприятии) описывает О. Сакс в упоминавшейся уже книге «Человек, который принял жену за шляпу». Больной был способен распознавать отдельные элементы, признаки изображений, но не видел объекты в целом, из-за чего ему приходилось выполнять эту операцию на уровне сознания. Например, он был способен «узнавать» лишь трех коллег по работе, используя такие признаки, как наличие у них нервного тика, большой родинки на щеке или по чрезвычайной худобе. В других случаях, при повреждении левого полушария, человек может распознавать рисунок из совокупности случайно расположенных окон, дверей, крыши как дом, но быть не в состоянии сказать, чем этот рисунок отличается от правильно нарисованного дома.

Интересно, что больной, описанный Саксом, будучи художником, при развитии болезни правого полушария постепенно в своей живописи все больше склонялся к кубизму, связанному, видимо, с активностью левого полушария. Напротив, такое направление, как импрессионизм, можно связать с большей активностью правого полушария. Такие примеры подтверждают то, что стратегии обработки информации в разных полушариях могут отличаться. Вообще говоря, многие направления в живописи связаны, видимо, с гиперболизацией тех или иных механизмов зрительного восприятия. Хорошо известно влияние на искусство такого феномена, как синестезия, впервые описанная в XIX веке Фрэнсисом Голтоном, двоюродным братом Чарльза Дарвина. Сейчас известно, что синестезией обладало достаточно много музыкантов и художников. При синестезии, по метафоре В. С. Рамачандрана (приводящего об этом феномене много фактов в своей книге «Рождение разума. Загадки нашего сознания»), имеется как бы «перекрест проводов» в мозгу, в результате чего происходит «перетекание сигнала» между областями мозга, занимающимися обработкой информации разных модальностей. Как следствие, человек способен видеть звук или слышать цвет. Крайне интересно и то, что были случаи цветовой синестезии у дальтоников, лишенных части цветовых рецепторов в глазу (это подчеркивает то, что переживание цветовых ощущений происходит в зонах коры, предопределенных генетически).

Несмотря на возможные разные стратегии обработки информации, на сетчатке все же изображение представляется в виде отдельных точек, каждая из которых активирует свою клетку-рецептор. При этом информация от отдельных рецепторов как-то должна объединяться, «интегрироваться». И действительно, если фоторецепторы реагируют на отдельные точки, то последующие нейроны объединяют информацию от нескольких нейронов предыдущего уровня и реагируют на все более сложные стимулы.

Такое постепенное объединение элементов изображения (или другой сенсорной информации) выглядит весьма правдоподобно, но все же правильное распознавание деталей без распознавания целого выполнять может только весьма ненадежно. Рассмотрим пример, на котором это было бы отчетливо видно. На приведенном ниже рисунке показаны уровни, на которые мог бы делиться анализ некоторого написанного от руки слова. Сначала отдельные пиксели могли бы объединяться в простейшие элементы, которые бы затем объединялись в штрихи, а те, в свою очередь, — в буквы. По буквам было бы уже просто распознать слово.

Даже если считать, что штрихи формируются идеально (хотя на самом деле здесь ошибиться очень просто, анализируя лишь небольшие фрагменты изображения), объединить их в буквы без ошибки очень сложно. Если смотреть в середину приведенного на рисунке слова, действительно невозможно сказать, какие штрихи входят в букву «ш», а какие — в букву «и».

formula_21

 

Такая неопределенность возникает на всех уровнях и во всех модальностях. К примеру, в одном из экспериментов, проводимых учеными, испытуемым на слух предъявлялась фраза, в которой некоторый звук в некотором слове был сильно зашумлен. Этот звук нельзя было определить по его собственному звучанию. Более того, для «испорченного» слова существовало несколько вариантов, отличающихся только одной буквой (например, «?орт» можно услышать, как «порт», «торт», «сорт», «корт», «борт», …). В зависимости от всей фразы «испорченное» слово воспринималось испытуемыми по-разному, даже если во всех случаях оно было одним и тем же. При этом у человека часто и мысли не возникало, что слово можно было распознать по-другому. Интересно, что результаты эксперимента не менялись, даже если зашумлялся первый звук первого слова.

Видно, что простой иерархичности недостаточно и нельзя на каждом уровне обработки делать однозначный выбор. Может быть, с каждого предыдущего уровня на последующий передается не одна, а несколько гипотез для каждого анализируемого фрагмента данных? В предыдущем примере это могут быть все возможные слова, заканчивающиеся на «…орт». На следующем уровне могут строиться разные фразы для всех возможных вариантов этого слова и из них как-то выбирается наиболее осмысленная. Но представим, что в предложении есть два слова, каждое из которых допускает по четыре варианта интерпретации. Тогда возможных вариантов предложений будет 16. Если же таких слов три, то вариантов будет 64. Такое вполне может быть. Ведь каждый из звуков по отдельности часто сложно определить однозначно. А если в некотором слове два или три звука неоднозначны?.. Посмотрим на написание слова «слышишь» от руки. Сколько вариантов последовательностей букв там возможно! Конечно, многие варианты не соответствуют реальным словам. Но можно ли их заранее отсекать? Вдруг во фразе присутствует какое-то новое слово? Видно, что число возможных гипотез будет расти лавинообразно, а локальный контекст на каждом уровне может обеспечить лишь частичное отсечение неправдоподобных интерпретаций.

Контекст, однако, не ограничивается теми данными, которые мы воспринимаем в конкретный текущий момент времени. Обычно у нас есть определенные ожидания, что можем увидеть или услышать, поскольку мы осведомлены о своем окружении. Именно эти ожидания и позволяют устранить неоднозначность в интерпретации сенсорной информации на наиболее высоком уровне восприятия. Наличие таких ожиданий может быть четко установлено, когда выбор способа восприятия неоднозначного стимула происходит не за счет непосредственного контекста, а за счет предварительной установки. Например, в психологии хорошо известен эффект перцептивной готовности, при котором начальная установка сильно сказывается на восприятии. Часто этот эффект демонстрируют на примере слов «желтый», «зеленый», «красный», «синий», написанных не теми цветами, которые эти слова обозначают. Интересно, что слова эти прочитать заметно легче, чем назвать цвет, которым они написаны. Конечно, от того, что синим цветом написано слово «красный», нам синий цвет краснее казаться не будет. Этот пример, хоть и весьма эффектный, но не вполне удачный. Зато в жизни встречаются и более подходящие примеры. Всем попадались, скажем, кроссовки с надписью «Abibas», которую вполне можно принять за название известной фирмы. Когда нам такая надпись встречается в другом контексте (например, как здесь) шансов ошибиться с ее прочтением меньше.

Как уже упоминалось, по контексту также разрешается и омонимия слов. Осмысление предложения начинается с отдельных входящих в него слов. Но каждое слово может иметь несколько значений, поэтому нужны какие-то механизмы перебора разных комбинаций значений слов в поисках наиболее осмысленной. Иногда смысл слов может быть непонятен только по одному предложению и нужен более широкий контекст. Так, к примеру, если в некотором тексте речь идет про некоторую девочку, то при прочтении предложения: «У нее была небольшая коса» — у читающего уже будет определенная установка, и при восприятии этого предложения вряд ли возникнет, например, образ девочки, держащей в руках сельскохозяйственное орудие.

Наиболее ярко эффект перцептивной готовности заметен на негативных примерах — когда из-за него наше восприятие ошибается. Однако в большинстве случаев использование предварительных установок, ожидания, общего контекста играет положительную роль, позволяя нам не тонуть в море альтернативных интерпретаций сенсорной информации, не приглядываться каждый раз к надписям или предметам. Все это хорошо подтверждает гипотезу о том, что в процессе восприятия приближенно решается NP-полная задача и при этом активно используется весь имеющийся контекст для сокращения числа гипотез. Эффект перцептивной готовности показывает, насколько языковая установка через оптимизацию процедур обработки сенсорной информации способна оказывать влияние на восприятие; в этом смысле упоминавшаяся гипотеза лингвистической относительности о зависимости нашего восприятия мира от языка не так уж лишена смысла.

Но как все это работает? Если на каждом этапе обработки для каждого кусочка данных порождается некоторое число гипотез, то на последующих этапах обработки при объединении этих кусочков в более крупные образования число гипотез будет расти в геометрической прогрессии и их будет весьма затруднительно сравнивать с имеющимися ожиданиями.

Стефан Гроссберг, занимаясь исследованием особенностей человеческого восприятия, еще в 1970-х годах предложил концепцию восприятия, названную им адаптивным резонансом. Суть идеи адаптивного резонанса в том, что гипотезы, активировавшиеся на более низких уровнях, не просто передаются на более высокие уровни для дальнейшего анализа, а усиливают удовлетворяющие им гипотезы более высоких уровней. В то же время и «активные» гипотезы более высоких уровней усиливают допускающие их гипотезы более низких уровней. Все это достаточно естественно представляется в виде рекуррентной нейронной сети, в которой уровень активности нейронов соотносится с уровнем принятия соответствующих гипотез. Нейрофизиологические данные также подтверждают существенную роль обратных связей, идущих от коры мозга к органам чувств и передающих информацию в направлении, обратном направлению прямой обработки сенсорной информации. Иногда число обратных связей оказывается даже больше, чем прямых.

Нейроны верхних уровней могут активироваться под воздействием активности нейронов нижних уровней. Тогда их роль будет заключаться в постепенной интеграции информации и разрешении неопределенности только на основе текущего контекста. При этом, правда, снятие неопределенности может быть затруднено. Но активность этих нейронов может быть также вызвана имеющимися ожиданиями (которые в восприятии человека должны играть очень большую роль). Если сила ожиданий слишком высока, то в крайнем случае активность нейронов верхнего уровня будет оставаться неизменной, подстраивая под себя через обратные связи активность нейронов всех прочих уровней вне зависимости от того, что происходит в действительности. Это можно связать с работой воображения или с ситуацией, в которой человек видит и слышит лишь то, что хочет или готов воспринять. Еще один феномен, который может быть объяснен распространением активности с верхних уровней вниз, — галлюцинации, часто возникающие при сенсорной депривации (лишении органов чувств входных сигналов). Действительно, если с нижних уровней активность не распространяется, то преобладать будут ожидания, идущие с верхних уровней вниз.

В нормальной ситуации результат восприятия будет зависеть как от активности рецепторов, на которые поступает информация, так и от активности нейронов верхних уровней, связанной с ожиданиями (предсказаниями на основе ранее полученной информации). При этом нейроны, отвечающие за взаимно согласующиеся гипотезы разных уровней, будут усиливать активность друг друга, т. е. входить в резонанс. Даже если какая-то гипотеза исходно и выглядела правдоподобнее, более слабые гипотезы, входящие в резонанс, в конечном итоге могут стать сильнее и выиграть. Именно поэтому нам кажется, что мы отчетливо слышим слова песни на фоне громкой музыки, когда хоть раз видели текст, даже если на память его воспроизвести не сможем. Если же текст нам не знаком (и к тому же он на иностранном языке), мы можем услышать что-то совсем другое и, поверив, что расслышали правильно, в последующие разы будем слышать то же самое.

Идея адаптивного резонанса позволила объяснить Гроссбергу некоторые особенности человеческого восприятия, например задержку в осознании сенсорной информации по сравнению со временем, требуемым для прохождения сигнала по зрительному или слуховому тракту. Эта задержка есть время, необходимое для установления резонанса и зависящее как от силы ожиданий, так и от степени неопределенности воспринимаемой информации.

С помощью адаптивного резонанса можно объяснить и тот факт, что на то, чтобы в первый раз увидеть объект, спрятанный на изображении-головоломке, уходит значительно больше времени, чем на его восприятие в последующие разы. На таких изображениях (из них наиболее известен рисунок далматинца) присутствует объект, складывающийся из каких-то других случайных объектов, но чтобы его увидеть, необходимы заметные усилия со стороны зрительной системы. Для распознавания спрятанного объекта требуется правильно сгруппировать видимые объекты, что требует большого перебора вариантов. Если бы обработка сенсорной информации шла строго снизу вверх, то зрительной системе пришлось бы каждый раз заново решать эту задачу. Второй раз взглянув на то же изображение, человек мог бы помнить, что на нем изображено, но не видеть этого до тех пор, пока нужная комбинация снова не нашлась. Однако распространение информации сверху вниз позволяет эффективно отсеивать неперспективные гипотезы нижних уровней, эффективно направляя поиск правильной интерпретации изображения. Здесь видна глубокая общность процессов восприятия и мышления. Влияние верхних уровней восприятия на процессы обработки информации на нижних уровнях еще больше видно по тому, что примитивные люди не подвержены некоторым оптико-геометрическим иллюзиям (т. е. иллюзиям, возникающим на уровнях восприятия до распознавания объектов), которым подвержены цивилизованные люди. Этот факт может быть, правда, объяснен не влиянием обратных связей, а изменением прямых связей под воздействием опыта.

В теории адаптивного резонанса проявляется проблема, которую часто называют дилеммой стабильности-пластичности. В какой степени наши ожидания должны влиять на восприятие неоднозначной и недостоверной информации? И, наоборот, насколько только что полученная информация должна влиять на наши последующие ожидания? Последний вопрос напрямую связан с процессом обучения, который, конечно, находится в центре внимания в теории адаптивного резонанса. Ведь в этой теории строятся нейронные сети специальной архитектуры, для которых неизбежным остается вопрос об установлении связей на основе обучающей выборки. Непластичная сеть не сможет обучаться, поскольку не будет сохранять информацию, а сеть, целиком подстраивающаяся под текущие данные, тоже не сможет обучаться, поскольку не будет выполнять обобщения. Обе эти крайности интуитивно кажутся плохими, но как выбрать оптимум между ними? Нетривиальность этого вопроса видна по тому, что и люди при его разрешении руководствуются разными стратегиями (к примеру, консерватизм характеризуется максимальной стабильностью при минимальной пластичности). Эту дилемму затруднительно решить на примере конкретной архитектуры нейронной сети, поскольку, как мы увидим, она имеет фундаментальный характер и проявляется во всех методах машинного обучения.

Идея адаптивного резонанса многое объясняет. Однако при попытке ее реализации в форме ИНС возникает много подводных камней. К примеру, в этих ИНС информация хранится локально, поскольку каждой гипотезе должен соответствовать некоторый нейрон, что не соответствует известным принципам распределенного хранения информации в мозгу. Ведь не получается найти так называемые «бабушкины» нейроны, которые бы распознавали конкретные слова или образы. Этот термин возник около 1969 года благодаря высказыванию Джерома Литвина о том, что если такие нейроны существуют, то у него в голове должен быть и нейрон, который активируется при появлении его «бабушки». Хотя в некоторых экспериментах были найдены нейроны, реагирующие на определенные понятия, осталось неясным, активируются ли вместе с ними при этом какие-то другие нейроны и реагируют ли эти нейроны только на одно понятие или на какие-то другие тоже. Конечно, до сих пор нет доказательства и того, что «бабушкиных» нейронов нет. В конце концов, в первичной зрительной коре нейроны реагируют на конкретные стимулы, появляющиеся в определенном месте на сетчатке (так что представление изображений, по крайней мере на данном уровне, не является распределенным).

Проблема здесь, однако, не в самой распределенности, а в том, что общее число гипотез (например, число классов распознаваемых образов) ограничено числом нейронов. Для букв или даже отдельных слов это может быть допустимо — их все же не так много, и каждому из них можно поставить в соответствие свой нейрон. А вот число всех возможных предложений, состоящих лишь из пяти слов, уже превосходит число нейронов в мозге. То же относится и к интерпретации зрительных сцен, на которых может присутствовать бесчисленное множество комбинаций объектов.

Трудности с ИНС в теории адаптивного резонанса возникают не только для верхних уровней восприятия. Не решается и проблема инвариантного распознавания. Речь здесь идет лишь о разрешении неопределенности для зашумленных образов, тогда как даже простое смещение объекта препятствует распознаванию. Хотя, конечно, нельзя требовать от одной идеи решения сразу всех проблем.

Первоначальная простая архитектура ИНС в теории адаптивного резонанса впоследствии была сильно усложнена, и некоторые недостатки были устранены, однако принципиальные проблемы, связанные с отсутствием инвариантности и ограничением на число гипотез, решены не были. Хотя искусственные нейронные сети и позволили достаточно естественным образом воплотить идеи адаптивного резонанса, это удалось сделать лишь для весьма частного случая. Сама же идея адаптивного резонанса столь универсальна, что может применяться в решении любых NP-полных задач (а не только задач восприятия), которые разбиваются на слабо связанные подзадачи, где применение адаптивного резонанса позволяет снизить отрицательный эффект от принятия промежуточных решений. Если не ограничивать себя рамками ИНС, несложно представить себе такую реализацию адаптивного резонанса, в которой не будет столь жестких ограничений на множество гипотез. К примеру, на верхнем уровне может «на лету» порождаться некоторое количество любых предложений, которые входят в резонанс с воспринимаемыми словами. Как отмечалось, в ИНС каждому предложению не может соответствовать собственный нейрон. И в то же время, если гипотезу представлять как совокупность нейронов, становится гораздо сложнее организовать резонанс между такими составными гипотезами на разных уровнях.

Можно сказать, что это одна из общих проблем для всех классических нейронных сетей: нейроны в них соединены попарно, поэтому сложно представить себе взаимодействие между группами нейронов, активность которых соответствует некоторому комбинаторному объекту, возникающему в конкретный момент времени, а не привязанному к некоторому нейрону. Это вызывает и трудности при обучении распознаванию подобных объектов, требующем синхронной модификации весов связей многих нейронов (поэтому обучение ИНС нередко производится централизованно внешним алгоритмом, а обучение на локальных правилах оказывается ограниченным). Конечно, мы рассмотрели далеко не все архитектуры ИНС. Но простого изменения архитектуры ИНС будет явно недостаточно для решения указанных проблем, характерных для любой модели, основанной на классических формальных нейронах.