От нейронов до зрения

С тех пор, как стало известно, что глаз представляет собой оптическую систему, которая строит изображение, философы задавались следующим вопросом: находится ли в голове некий человечек, гомункулус, который смотрит на это изображение. И если он на него смотрит, то, в свою очередь, находится ли у него в голове еще один человечек, который также смотрит на следующее изображение, и так далее. Очевидно, лишь одного того факта, что глазом формируется изображение, совершенно недостаточно для объяснения процесса зрения. Всю глубину непонимания этого процесса показывает следующий вопрос: как и где в мозгу перевернутое изображение, формируемое глазом, переворачивается обратно? Когда-то эта проблема казалась серьезной, но сейчас с алгоритмической точки зрения понятно, что это не проблема вовсе или, по крайней мере, самая мелкая проблема, о которой нужно думать. Отметим еще раз, насколько более продуктивными математическая теория алгоритмов сделала наши рассуждения о мышлении.

Даже тот факт, что человек, надевший и непрерывно носивший специальные очки, переворачивающие изображение, через некоторое время перестает видеть мир перевернутым, кажется не слишком удивительным. Алгоритмически такую функцию реализовать гораздо проще (и она уже реализуется во многих цифровых камерах), чем распознавание. Примечательным является лишь то, что она оказывается доступной человеческому мозгу, несмотря на ее биологическую бесполезность. То, что мозгу требуется заметное время на переворачивание изображения, видимо, говорит о том, что эта функция не заложена в него заранее, но формируется только при возникновении такой необходимости (в отличие от камер, где она запрограммирована разработчиком).

Человеку субъективно кажется, что зрительное восприятие — нечто очень простое. Слишком легко оно ему дается. Даже перемножение двух трехзначных чисел кажется сложнее, чем их прочтение с листа бумаги. Мало кто понимал истинную сложность этого процесса до того, как стали проводиться попытки его алгоритмического воспроизведения. Что же происходит после того, как на сетчатке глаза формируется изображение?

Первая реализованная искусственная нейронная сеть — перцептрон — предназначалась для моделирования сетчатки, которая содержит не просто фоточувствительные рецепторы — палочки и колбочки, — но также и несколько слоев разнотипных нейронов. Такая слоистость была известна и во времена изобретения перцептрона, но на этом его сходство с реальной сетчаткой заканчивается. Может быть, ограниченность способности обучаться, относящаяся ко всем рассмотренным типам ИНС, вызвана тем, что в них заложены ранние сведения о функционировании естественных нейронных сетей? Неужели более чем за полвека не появилось новых сведений в нейробиологии? Конечно, сведений появилось много.

К примеру, достаточно быстро стало известно, что в действительности нейроны в сетчатке не обучаются распознавать разные объекты. Они выполняют лишь самые первые шаги обработки изображений и посылают предобработанное изображение для гораздо более детального анализа по зрительному нерву в обширную зрительную кору головного мозга, занимающую весьма заметную долю общей площади коры мозга — 15 %.

Интересно, что в глазу человека насчитывают свыше 100 млн рецепторов, что условно соответствует регистрации изображения 10000X10000 пикселей. В то же время  зрительный нерв состоит из аксонов всего лишь миллиона нервных клеток (называемых ганглиозными). Зачем иметь столько рецепторов в сетчатке, чтобы передавать в мозг меньше 1% объема регистрируемой информации (если, конечно, по миллиону нервных волокон не успевает каким-то хитрым образом передаваться вся информация, регистрируемая ста миллионами клеток)?

Природа обычно экономна, и вряд ли в глазу было бы так много рецепторов, если бы они на самом деле не использовались. Хорошо известно, что изображения обладают большой информационной избыточностью. Упрощенно говоря, это выражается в том, что цвета соседних точек на изображениях обычно отличаются мало. Исключения составляют точки на границах объектов, где происходит резкое изменение яркости или цвета. Если бы мы вычли из яркости каждой точки среднюю яркость в ее окрестности, то получили бы новое «изображение», на котором были бы отображены контуры объектов, а все остальные точки стали темными. Изображения, полученные в соседние моменты времени, часто похожи, и «соседние кадры» можно тоже вычитать друг из друга для передачи в мозг их различий.

Структура связей между нейронами сетчатки хорошо изучена (в очень приближенном виде она представлена ниже на рисунке). Интересно, что слой фоторецепторов расположен наиболее далеко, а слой клеток, аксоны которых формируют зрительный нерв (уходящий через слепое пятно обратно в мозг), наиболее близко к поверхности глаза. Также изучены рецептивные поля отдельных нейронов, т. е. те области сетчатки, с которых в данный нейрон попадает информация.

formula_17

 

Можно было бы обсудить работу всех слоев сетчатки, но особый интерес представляют рецептивные поля ганглиозных клеток, посылающих сигналы по зрительному нерву в мозг, поскольку с их помощью можно понять функции всей сетчатки по переработке зрительной информации. Нейрофизиологами изучались отклики ганглиозных клеток в ответ на различные визуальные стимулы. В частности, Куффлер подключал к разным ганглиозным клеткам электрод и, проецируя в разные места сетчатки маленькое пятнышко света, отыскивал на сетчатке области, освещение которых увеличивало или подавляло активность конкретной ганглиозной клетки.

Выяснилось, что рецептивные поля многих ганглиозных клеток круглые и состоят из центра и периферии (как показано на рисунке), причем эти клетки бывают двух типов: у клеток с так называемой on-реакцией засветка центра рецептивного поля приводит к повышению активности клетки, а засветка периферии — к подавлению ее активности, в то время как у клеток с off-реакцией все в точности наоборот.

formula_18

 

Таким образом, если в центр рецептивного поля клетки с on-реакцией проецировать пятнышко света, то при увеличении размеров этого пятнышка активность клетки будет возрастать, пока пятно не заполнит весь центр. Когда же пятно начнет заполнять периферию, то активность клетки будет уменьшаться. При равномерной засветке всего рецептивного поля ганглиозная клетка практически не будет проявлять активности.

Видно, что ганглиозными клетками действительно вычисляются усредненные разности яркостей точек и их соседей. Кроме того, имеется еще один тип ганглиозных клеток, которые вычисляют не пространственные, а временны́е изменения яркости, и возбуждаются только при наличии движения на изображении в соответствующей области сетчатки.

Конечно, несмотря даже на это, довольно трудно с уверенностью утверждать, что именно происходит в сетчатке, ведь свойства сетчатки не так просты. К примеру, рецептивные поля ганглиозных клеток сильно варьируются по размеру и другим параметрам, а сами клетки получают не только прямые сигналы от рецепторов, но и обратные из мозга. Однако гипотеза о том, что нейронами сетчатки выполняются операции по уменьшению избыточности (которые часто представляются как пространственное и временно́е дифференцирование изображений), является весьма популярной.

Зрительная информация от нейронов сетчатки через некоторые дополнительные структуры (такие, как наружное коленчатое тело) попадает в зрительную кору, которая разбивается на большое число зон. Наиболее изученной сейчас является первичная зрительная (или стриарная) кора. Это участок зрительной коры, нейроны которого первыми в коре мозга получают зрительную информацию. Интересно, что в стриарной коре порядка 200 млн клеток, которые принимают информацию всего от пары миллионов ганглиозных клеток сетчатки двух глаз. Чем же занимается такое количество нейронов? Установлено, что значительная часть этих нейронов (около 70 %) откликаются на полосы и линии, причем каждый нейрон активируется, только если такие линии появляются в определенной области на сетчатке и обладают определенной ориентацией (основные свойства этих нейронов были открыты в 1960-х годах Д. Хьюбелом и Т. Визелом, за что им в 1981 году была присуждена Нобелевская премия). На естественных изображениях максимальный отклик возникает на протяженных границах объектов. Если считать, что ганглиозные клетки просто выделяют точки на границах объектов (точки, в которых нарушается пространственная однородность изображения), то работа клеток стриарной коры выглядит вполне уместной в качестве следующего шага обработки. Можно сказать, что эти клетки описывают изображения в терминах некоторых простейших структурных элементов, таких как отрезки прямых линий. Полагается, что в последующих зонах зрительной коры нейроны могут реагировать на более сложные формы, например треугольники. А более высокие зоны строят описания объектов в терминах еще более сложных элементов.

Конечно, работа зрительной коры гораздо сложнее: в ней происходит анализ и цвета, и текстуры, и движения; информация от двух глаз объединяется для осуществления стереозрения; работает множество других механизмов. Высшие зрительные функции все еще остаются загадкой. И самое главное, до сих пор не известно, как происходит обучение. До конца неясно даже, что в структуре зрительной системы заложено генетически, а что формируется под влиянием опыта. Хотя структура зрительной системы у человека продолжает формироваться до 4–5 лет, это может быть как реализацией генетической программы, лишь немного адаптирующейся к окружению, так и детальным обучением, в результате которого создаются основные связи зрительного тракта.

Существует много разных экспериментов, которые проводились с целью ответить на этот вопрос. Классическим считается эксперимент, выполненный в 1970 году К. Блейкмором и Дж. Ф. Купером. В этом эксперименте котят содержали в окружении, обеспечивающем восприятие только чередующихся черных и белых полос. Как оказалось, у котят потом в первичной зрительной коре наблюдались лишь клетки, чувствительные к вертикальным полоскам, а клеток, чувствительных к элементам другой ориентации, обнаруживалось гораздо меньше, чем в норме. В других экспериментах вместо изменения окружения использовались специальные очки, причем один глаз видел преимущественно горизонтальные, а другой — вертикальные контуры. В результате  клетки, получающие разную информацию от разных глаз, оказались более чувствительными к контурам своей ориентации. Интересно, что эти изменения могут быть заметны не только по функционированию нейронов, но и визуально, под микроскопом. Хьюбел отмечает поразительность того факта, что возможно вызывать заметные физиологические и морфологические изменения в нервной системе лишь с помощью информационного воздействия без реального физического вмешательства. Это следует признать верным, по крайней мере, для первых лет жизни.

Но даже эти (равно, как и некоторые другие) эксперименты не позволяют судить о том, насколько пластичной является зрительная система в процессе своего формирования в ранний постнатальный период. Многие исследователи полагают упомянутые эксперименты убедительным свидетельством большой пластичности даже первичной зрительной коры, в результате которой формируются связи, не заложенные генетически. Не менее правдоподобна и другая гипотеза, согласно которой депривация зрительной системы (т. е. лишение ее всего богатства естественных стимулов) ведет лишь к деградации нейронов, в норме реагирующих на те стимулы, которые отсутствуют в обедненной среде, и перераспределению ресурсов между работающими нейронами. Здесь полагается, что бедная среда ведет к исчезновению полезных связей, заложенных генетически. При этом сомнительной считается возможность создания такой обогащенной среды, в которой в первичной зрительной коре будут появляться нейроны, реагирующие на более разнообразные, чем в норме, стимулы. Бесспорно, для более высоких зон зрительной коры влияние опыта должно повышаться.

С другой стороны, некоторые эксперименты показывают, что если после рождения животному зрительный нерв «подсоединить» к слуховой коре вместо зрительной, то оно научится видеть с помощью слуховой коры. Остается пока неясным, связано ли это с активацией генетических программ, содержащих сведения об алгоритмах обработки информации соответствующей сенсорной модальности, или же с чрезвычайной обучаемостью нейронов коры.

Несмотря на неоднозначность интерпретации, эксперименты Блейкмора и Купера вместе с другими сведениями о работе первичной зрительной коры, в частности, показанная Хьюбелом и Визелом чувствительность этих нейронов к ориентациям линий и краев, привели к развитию моделей распознавания образов на основе обучающихся искусственных нейронных сетей. Именно на эти эксперименты ссылается Кунихико Фукусима в статье 1975 года, в которой он предложил нейронную сеть под названием «Когнитрон».

Когнитрон имеет определенные сходства с перцептроном. Это тоже сеть прямого распространения, состоящая из нескольких слоев. Однако правила ее обучения другие. Во-первых, когнитрон учится без учителя (или самообучается), т. е. ему даются только сами изображения и не сообщается, совершил ли он ошибку в результате своей работы. В связи с этим когнитрон не осуществляет коррекцию связей на основе информации о своих ошибках, но организует свои связи так, чтобы сходные образы классифицировать одинаково. Конечно, когнитрон является не единственной сетью, обучающейся без учителя. Таковыми являются, например, самоорганизующиеся карты Кохонена, веса в которых также настраиваются так, чтобы сеть одинаково реагировала на похожие образы.

Во-вторых, в процессе обучения связи усиливаются не просто между парой нейронов, активирующихся одновременно, но между парой нейронов, активность которых максимальна в некоторой пространственной области (обучение работает по принципу «победитель забирает все»). Фукусима обосновывает такой способ обучения с точки зрения работы глиальных клеток, заполняющих пространство между нейронами (хотя сами эти клетки и не вводятся в модель в явном виде): глиальные клетки питают в своей окрестности наиболее активную пару нейронов, через связь между которыми проходит сигнал. Это отличается от простейшего варианта правила Хебба, в котором усиливается существующая связь между любыми одновременно активными нейронами. Такая модификация правила обучения приводит к тому, что каждый нейрон начинает реагировать на определенный элемент в определенной области изображения (например, на линию определенной ориентации) после многократного предъявления одного и того же стимула. Нейроны последующих уровней реагируют на комбинации простейших стимулов, расположенных определенным образом. При этом в отличие от перцептрона в процессе обучения когнитрона без особых трудностей настраиваются связи между нейронами всех уровней.

Интересно, что если когнитрону предъявлять только стимулы, состоящие из линий вертикальной ориентации, то после обучения нейроны первого слоя будут реагировать только на вертикальные линии. Чем больше разнообразие предъявляемых стимулов, тем больше будет и разнообразие рецептивных полей нейронов. Бесспорно, все это — и повышение сложности воспринимаемых стимулов с уровнем, и особенности обучения — имеет гораздо большее сходство со свойствами зрительной системы, чем у перцептрона. Можно было бы даже сказать, что когнитрон более гибок, чем реальная первичная зрительная кора, ведь нейроны его первого уровня могут научиться реагировать не только на линии разной ориентации, но и почти на любые другие локальные особенности изображений (правда, только бинарных). Пластичности такого уровня не удается обнаружить даже на самых ранних этапах развития первичной зрительной коры. Однако когнитрон, как и все ранее рассмотренные ИНС, не способен обучиться распознавать изображения при их смещениях и других преобразованиях, если в обучающей выборке не было изображений, преобразованных почти так же, как и распознаваемое изображение.

В целях преодоления этого фундаментального ограничения Фукусима к 1980 году разработал «Неокогнитрон». В этой ИНС моделировалось еще одно свойство первичной зрительной коры, которое состоит в наличии в ней так называемых простых и сложных клеток. Различие между этими клетками заключается в том, что простые клетки реагируют на стимул, находящийся только в определенной точке изображения. Если стимул отклоняется от этой точки, то реакция простой клетки на него ослабевает. Сложные же клетки реагируют на свой стимул почти независимо от его положения в некоторой области изображения — рецептивном поле сложной клетки.

В когнитроне сложные клетки используются для обеспечения инвариантности к сдвигам и отчасти — повороту и масштабу. Модели этих клеток собирают информацию с однотипных простых клеток, реагирующих на один и тот же стимул, находящийся в разных местах изображения. Такая модель сложных клеток требует больших объемов вычислений. Сейчас существуют модели, позволяющие воспроизвести свойства сложных клеток без сбора информации с простых клеток, отвечающих всем возможным положениям некоторого стимула. Но не это главное. Однотипность простых клеток приходится задавать заранее. Понятно, что на основе некоторой простой клетки, связи которой настроены в процессе обучения на реакцию на определенный стимул, проблематично построить сложную клетку, так как нет других простых клеток, реагирующих на тот же стимул, но появляющийся в других местах изображения. Даже если когнитрону предъявить сто одинаковых стимулов, но с разными смещениями, он не сможет распознать сто первый стимул с новым смещением, т. е. он не способен выполнить обобщение. Общую структуру связей в неокогнитроне между простыми и сложными клетками приходится задавать заранее. Это могло бы служить объяснением, почему на нижних уровнях обработки информации в зрительной системе не происходит обучения, в результате которого клетки могут реагировать на разнообразные стимулы, и связи между клетками во многом определяются генетически. Однако в неокогнитроне даже инвариантность к сдвигу достигается не в результате обучения, а задается априорно (заранее). Возможно, в зрительной системе этот тип инвариантности тоже задан генетически (поскольку это важно для выживания), однако нельзя не согласиться, что человеческий разум способен формировать новые, куда более сложные, инварианты. А наделение компьютера именно такими способностями и является целью машинного обучения как научной области.

В этом смысле неокогнитрон тоже не дает решения одной из центральных проблем машинного обучения. Его способность к инвариантному распознаванию за счет специально разработанной структуры связей не слишком интересна, поскольку в компьютерном зрении этот же результат был достигнут гораздо раньше с использованием традиционных (не нейросетевых) алгоритмов. Вообще, сейчас в компьютерном зрении ИНС не очень популярны, поскольку с помощью обычных алгоритмов удается достичь результатов заметно более эффективным образом. В то же время нельзя не признать, что сведения из нейрофизиологии и психофизиологии зрительного восприятия сыграли большую роль в развитии этой области. При этом некоторые известные механизмы зрительного восприятия до сих пор редко воспроизводятся в компьютерном зрении. Одним из таких важных механизмов является обратная связь между уровнями восприятия, которая для воспроизведения требует сетей не прямого распространения, а рекуррентных.