Подходы к представлению изображений

Описание изображения всегда производится в рамках некоторого представления. Под представлением понимается формальная система, содержащая алгоритмы, позволяющие получить в явном виде описание объектов заданного класса [23, с. 36]. Наряду с термином «описание изображения» мы будем использовать термин «модель изображения». Тогда анализ изображения может рассматриваться как процесс преобразования информации, то есть как процесс преобразования описаний изображений из некоторого исходного представления (в котором, как правило, изображение определяется как массив значений яркостей пикселей)  в конечное представление [23, стр. 46]. Подобный процесс построения описаний изображений также называется интерпретацией изображений [24].

Отметим, что не следует полностью отождествлять понятия анализа и интерпретации изображений. Далее под интерпретацией изображений будем подразумевать процесс построения описания изображения в рамках данного представления. Дальнейший анализ изображения базируется на результатах интерпретации, поэтому эффективность методов анализа во многом определяется качеством интерпретации, и дальнейшее обсуждение представлений изображений относится в равной мере как к интерпретации изображений, так и к их анализу вообще.

Исходное представление определяется способом получения изображений. При этом одной из центральных задач в анализе изображений является определение адекватных конечных представлений изображений. Рассмотрим основные представления и соответствующие им подходы.

Низкоуровневые методы анализа  изображений

Исходное представление в виде массива яркостей содержит всю доступную информацию об изображении, однако в неудобной форме, так как не содержит сведений, как следует работать с изображениями. Этим определяется естественный подход, заключающийся в представлении изображения как элемента некоторого математического пространства. Поскольку при этом, как правило, на изображении не выделяется информация о его содержании, методы, строящиеся в рамках данного подхода, называются иногда низкоуровневыми [25]. Два основных класса математических моделей изображений включают [14]: представления в виде случайных полей и функциональные представления.

Интерпретация изображения в качестве элемента математического пространства позволяет распространить формальные операции, введенные на этом пространстве, и на изображения. Это дает обширный набор строгих внутренне непротиворечивых правил анализа и преобразования изображений, таких как пространственные преобразования (например, масштабирование), фильтрация, интерполяция (в целях реставрации), смена функционального базиса (например, преобразование Фурье) и т.д. Обычно подобные преобразования изображений обозначают термином «обработка изображений» (поскольку в качестве результата здесь также выступает изображение) и рассматривают отдельно от прочих задач анализа изображений.

Однако применение низкоуровневых математических моделей изображений оказывается ограниченным, поскольку в них не извлекается из изображений информация, релевантная по отношению к решаемой задаче анализа. К примеру, если выбранное пространство является метрическим, то появляется возможность формального определения «расстояния» (т.е. степени сходства) между изображениями. Однако в этом расстоянии не будет учитываться то, что различия в изображениях могут быть обусловлены разными факторами: сменой ракурса, освещения, типа сенсора, перемещением объектов и т.д. Иными словами, в рамках математических моделей изображений не всегда удается достичь инвариантности к преобразованиям сложного типа (см., напр., [26]).

Низкоуровневые методы анализа изображений преимущественно используются в целях интерполяции (в целях масштабирования) изображений [27, 28], их реставрации [14, 29], подавлении шума [30], улучшении для визуального восприятия человеком [31], а также в целях распознавания [32, 33] и совмещения  [34, 35] в случае отсутствия сложных типов изменчивости.

Контурные методы анализа изображений

Под контуром обычно понимается местоположение локального изменения или резкого перепада яркости на изображении [36]. Как правило, приводятся следующие аргументы в пользу применения контуров [11, с. 43]:

  • контур является концентратором информации в изображении;
  • контур полностью характеризует форму объектов на изображении;
  • контуры объекта, в отличие от его остальных точек, присутствуют на изображениях, полученных в разное время, при разных ракурсах, условиях погоды и при смене датчика;
  • контурные точки составляют незначительную часть всех точек изображения, поэтому работа с ними позволяет резко сократить объем вычислений.

 

Однако существование большого разнообразия методов выделения контуров [37-41], результаты применения которых практически никогда не совпадают, говорит о том, что до сих пор не существует законченной теории контурного анализа, включающей вопросы не только использования, но и построения контуров (отметим, что некоторые теории контурного анализа предполагают обработку уже имеющихся контуров, как, например, в [11]). Стоит также отметить, что методы построения контуров базируются на математических моделях изображений. В свою очередь, извлеченные из изображений контуры используются для последующего построения структурных описаний, хотя могут непосредственно применяться, например, для совмещения пары изображений или изображения с векторной моделью [42, 43], описание формы объектов или областей по их контурам, например, с помощью методов математической морфологии [44] или для решения задачи стереопсиса [45].

Структурные методы анализа изображений

Наиболее робастными принято считать структурные описания изображений, которые строятся на основе контурных или аналогичных им описаний [9]. Под структурными элементами обычно понимают геометрические примитивы, такие как отрезки прямых линий [46], дуги окружностей или эллипсов [47, 48], углы, а также составные элементы: соединения вида “Г”, “T”, “Y” и “X” [49, 50], параллельные линии, параллелограммы [51] и т.д.

Структурные описания изображений в еще большей степени устойчивы к различного рода изменениям и еще более компактны по сравнению с контурными методами, поэтому они наиболее предпочтительны при решении задач анализа изображений с большой априорной неопределенностью. Структурные методы находят широкое применение при решении задач интерпретации антропогенных ландшафтов [51],  распознавании объемных объектов [43], совмещении изображений трехмерных сцен [52] и совмещении изображений, подверженных сезонно-суточной или другого типа изменчивости [16, 53].

Существуют формальные теории манипулирования структурными описаниями (например, на основе формальных грамматик [15, 54] или теории графов [55, с. 42-94]), но в них предполагается, что исходное представление дано априори. Обоснования методов построения самих представлений разработаны недостаточно полно. Практически отсутствуют попытки строгого обоснования различных типов составных структурных элементов.

В результате, из-за несовершенства методов структурных описаний изображений, в этих описаниях теряется значительная часть полезной информации, из-за чего структурные методы преимущественно применяют для анализа изображений сравнительно большого формата.

Методы, основанные на знаниях

Одной из распространенных целей анализа изображений является назначение семантических меток областям на изображении, то есть описание изображений сцен на естественном языке. Тогда в качестве конечного представления изображений рассматривается некоторая система представления знаний. Более того, многие авторы указывают на необходимость того, чтобы сам процесс анализа изображений происходил под управлением знаниями [56, 57]. В качестве основной аргументации [9] в пользу этого выступает утверждение о недостоверности результатов, полученных в подходах, ведомых данными (подходах снизу вверх), и о проблеме комбинаторного взрыва количества возможных различных интерпретаций.

Существуют следующие подходы к представлению знаний в системах интерпретации изображений: семантические сети [58, 59], объектно-ориентированные представления и фреймы [17, 57, 60], продукционные системы [56, 58], мультиагентный подход [61, 62], онтологии [63, 64] и некоторые другие. Часто для описания знаний различного типа в одной системе может привлекаться несколько представлений.

Как правило, системы, основанные на знаниях, априорно имеют высокоуровневое описание сцены (см., напр., [58]). Задача заключается в привязке этого высокоуровневого описания к изображению, а вовсе не в построении самого описания. Высокоуровневое описание сцены задается не полностью: могут быть неточно известны положения объектов, какие-то объекты или их части в априорном описании могут быть пропущены из-за неполноты этого описания или могут быть указаны лишние, если часть объекта не доступна наблюдателю. Однако выбор всегда осуществляется из малого числа альтернативных интерпретаций, каждая из которых выдвигается в качестве гипотезы и проверяется на соответствие с изображением. Это хотя и позволяет избежать комбинаторного взрыва числа возможных интерпретаций, характерного для подхода снизу вверх, но делает методы, основанные на знаниях, способными работать лишь в сильно ограниченных предметных областях.

Тем не менее, анализ на основе знаний применяется при наличии большого объема априорной информации, в частности, в задачах совмещения изображений [65], смысловой интерпретации сцен [59], восстановлении трехмерной формы объектов [58], извлечение изображений из баз данных [63].

Анализ изображений на основе признаков

Признак определяется как функция одного или более измерений, каждое из которых устанавливает некоторое количественное свойство объекта, и вычисляется так, что численно выражает некоторую значимую характеристику объекта [66].

Можно классифицировать различные признаки, применяемые в настоящее время, следующим образом [18]:

Общие признаки: признаки, независимые от приложения, такие как цвет, текстура, форма. В соответствии с уровнем абстракции они могут быть далее разделены на:

  • признаки пиксельного уровня: признаки, вычисляемые в каждом пикселе, такие как цвет, положение;
  • локальные признаки: признаки, вычисляемые в некотором окне или ограниченной области изображения;
  • глобальные признаки: признаки, вычисляемые по всему изображению. Обычно, это статистические свойства изображений, например, гистограмма, среднее, дисперсия и другие моменты.

 

Предметно-зависимые признаки: признаки, зависимые от приложения, например, описывающие лица людей, отпечатки пальцев и т.д. Эти признаки часто формируются на основе общих признаков для конкретной предметной области.

С другой стороны, все признаки могут быть условно разделены на низкоуровневые и высокоуровневые признаки. Низкоуровневые признаки могут быть извлечены непосредственно из исходного изображения, тогда как высокоуровневые признаки базируются на низкоуровневых признаках.

Точки, в которых значение некоторого локального признака достигает экстремального значения, называются точками интереса. Использование точек интереса делает признаковые методы похожими на контурные и структурные методы, однако между ними сохраняется и некое отличие. Если в признаковых методах точки интереса рассматриваются, как правило, по отдельности, то основой структурных методов  являются характеристики взаимного расположения структурных элементов.

Описание некоторой области изображения через совокупность ее признаков позволяет применять дискриминантные методы распознавания образов, поэтому признаковый подход наиболее широко используется в распознавании объектов [32, 33, 67] или текстур [68, 69]. Признаковые методы применяются в целях распознавания только в тех случаях низкой априорной определенности, когда удается построить инвариантные признаки. Точки интереса, полученных в результате нахождения экстремальных значений локальных признаков, могут быть использованы также в задачах совмещения изображений [70-72].

Однако сфера применения признаковых методов ограничивается рядом нерешенных проблем как в области распознавания образов, так и в области формирования признаков, в частности, формирования инвариантных признаков в условиях большой априорной неопределенности изображений. В конечном итоге, эти проблемы сводятся к выбору адекватного критерия качества принимаемого решения.

Иерархические представления изображений

Принято считать [73], что принятие решений о принадлежности некоторого сигнала с шумами к определенному классу должно основываться на как можно большем числе наблюдаемых отсчетов сигнала, и что промежуточные дискретные решения относительно подмножеств отсчетов вредны, так как они разрушают информацию; однако опыт решения задач анализа изображений доказывает целесообразность принятия подобных промежуточных решений. Анализ изображения, дающий наиболее надежные результаты, должен был бы опираться на исходные значения яркостей всех пикселей изображения.

Однако проблема анализа зачастую оказывается NP-полной, поэтому сложность нахождения точного решения этой проблемы возрастает не менее чем экспоненциально с увеличением размера изображения [24]. Это ограничение является принципиальным, и оно подразумевает, что требуется искать субоптимальные методы. Принятие промежуточных решений (или построение промежуточных представлений) является принципиальным подходом к решению проблемы комбинаторного взрыва.

Можно выделить два различных способа введения иерархичности в процесс анализа изображений: иерархичность по пространственному масштабу (методы с переменной разрешающей способностью [74-76]) и иерархичность по уровням абстрактности привлекаемых представлений (многоуровневые методы [53, 59]).

Различие между этими двумя группами методов заключается в том, каким именно образом происходит снижение размерности данных. В методах с переменной разрешающей способностью это снижение производится за счет простого снижения разрешения, в многоуровневых же методах оно производится за счет исключения неинвариантной и избыточной информации (например, в цепочке: яркости пикселей – контуры – структурные элементы – составные элементы – объекты).

Иерархические представления имеют широкое применение в различных задачах анализа изображений, таких как устранение шума [77], построение контуров [41], совмещение изображений [78, 79], сегментация изображения [80], извлечения изображений из баз данных [81] и др.

Проведенное рассмотрение основных подходов к представлению изображений позволяет сделать следующие выводы. В области анализа изображений существует большое число подходов, в основу которых положены разные представления. При этом разные подходы имеют несколько различные (хотя и перекрывающиеся) сферы применения, которые определяются степенью априорной неопределенности анализируемых изображений, их размерами и содержанием.

Различие сфер применения существующих представлений говорит о том, что выбор используемого представления зависит от решаемой задачи, однако рекомендации для осуществления этого выбора ограничиваются эвристическими соображениями. Строгое обоснование самих представлений также отсутствует.

Более того, в рамках каждого из представлений существует большое число методов, опирающихся на одинаковые неформальные соображения, но имеющих различную реализацию и дающих разные результаты. Важно подчеркнуть, что формальные теории анализа изображений на основе данных априори описаний (например, контурный или структурный анализ) являются гораздо более развитыми, чем теории построения самих описаний. Таким образом, для каждого из упомянутых выше подходов существует проблема выбора лучшего описания некоторого изображение в рамках заданного представления. Во второй группе подходов к анализу изображений предполагается существование механизма выбора, единого для всех представлений. При этом подходы данной группы различаются по способу задания критерия качества, под управлением которого осуществляется выбор лучшего описания.