Теорема Байеса для выбора модели

Введем для начала некоторые определения, которые понадобятся нам для дальнейшего изложения. Через выражение Pr(S) обозначим вероятность наступления некоторого события S в результате проведения испытания.
В качестве такого события может выступать, например, «выпадение «решки»», а в качестве испытания — подбрасывание монетки. Пусть задана случайная величина Х, которая может принимать значения из некоторого множества Х = { х1 , х2 , … , xn, … }. Например, Х — это выпадающая в результате очередного подбрасывания сторона монетки; Х ={«орел», «решка»}. В результате единичного испытания случайная величина принимает
одно и только одно значение. Тогда распределением вероятностей случайной величины Х называют отображение Р : Х -> [0, 1] такое, что P(x_{i})=Pr(X=x_{i}) , где выражение Pr(X=x_{i}) обозначает вероятность реализации события, соответствующего принятию случайной величиной значения x_{i} в проведенном испытании. Чтобы подчеркнуть, что данное распределение относится к случайной величине Х, пишут P_{X}(x). Мы будем
обычно опускать этот индекс, поскольку из контекста ясно, о какой именно случайной величине идет речь. Напомним, что для распределения вероятностей должно выполняться условие нормировки: \sum_{{x\in X}}P(x)=1.

Теперь пусть заданы две случайные величины: Х и Y. Множество значений случайной величины Y обозначим через Y = {y1 ,y2 , … , yn, … }. Тогда величина Р(х,у) = Pr(X = х & У= у) задает совместное распределение вероятностей. Здесь величина Pr(S1 & S2) означает вероятность одновременного (при проведении одного испытания) наступления событий S1 и S2, а условие нормировки принимает следующий вид:

formula_51

Еще одним используемым понятием будет условная вероятность Pr(S1 | S2), которая определяет вероятность наступления события S1 при условии того, что наступило событие S2. Тогда можно определить условное распределение Р(x | y)= Pr(X = х | Y= y).

Для произвольных случайных величин выполняется следующее соотношение: Р(х,у) = Р(х | y)Р(y). Часто это соотношение дается в качестве определения условной вероятности. Можно также заметить, что в случае Р(y) =0 вероятность Р(х | у) оказывается неопределенной. Если верно равенство Р(х | у)= Р(х), то случайные величины называются статистически независимыми. Нетрудно убедиться, что для статистически независимых случайных величин выполняется также и равенство Р(х,у) = Р(х)Р(у).

Теперь несложно получить правило Байеса. Пусть у нас имеются две случайные величины — Х и Y. Рассмотрим уравнение, определяющее вероятность того, что Х = х при условии, что Y= y: Р(х,y) = Р(х | у)Р(у). Аналогично можно записать: Р(х, у)= Р(у | х)Р(х), следовательно, Р(у | х)Р(х) = = Р(х | у)Р(у). Тогда при условии, что Р(у) ≠ 0, получаем теорему (правило) Байеса:

formula_52

Несмотря на тот факт, что правило Байеса — это просто переписанное определение условной вероятности и ничего более, именно его интерпретация и приложения имеют наиболее фундаментальный характер и вызывают очень резкие дебаты в течение последних двух веков [51].

Чтобы раскрыть смысл этой теоремы и связать ее с проблемой выбора гипотез, перепишем правило Байеса в новых обозначениях:

formula_53

где hi — i-я гипотеза из N альтернатив (из которых одна, и только одна, гипотеза верна); Н = {h1, h2, … , hN} — пространство гипотез (в общем случае может быть бесконечным); D — данные наблюдений или свидетельство (см. п. 1.1.2). Тогда P(hi | D) — вероятность того, что гипотеза hi верна при условии, что имеются данные D, т. е. это апостериорная вероятность гипотезы; P(hi) — априорная вероятность гипотезы; P(D | hi) — вероятность получить данные D при условии, что верна гипотеза hi, т. е. эта величина описывает правдоподобие данных наблюдений D исходя из гипотезы hi. Эти величины являются ключевыми для данной главы. Вероятность Р(D) обычно не вовлекается, поскольку она одинакова для всех гипотез.

Таким образом, при байесовском подходе к индуктивному выводу критерием качества гипотезы служит ее апостериорная вероятность r(h | D) = P(h | D), для вычисления которой «надо знать лишь априорные вероятности всех конкурирующих с ней альтернатив (включая ее саму), при условии, что данное свидетельство совместимо с интересующей нас гипотезой (подсчет условной вероятности свидетельства при данной гипотезе P(D | hi) не вызывает затруднения) [1, с. 33]. Проблемы машинного обучения или индуктивной логики при этом сводятся к вероятностному выводу.

Для пояснения рассмотрим пример, относящийся к проблеме классификации, которая заключается в отнесении оптимальным образом некоторого объекта, описанного набором признаков, к одному из нескольких классов.

Пусть на автоматизированном производстве выполняется обзор производственного помещения в целях обнаружения посторонних объектов в сфере действия робота. При этом требуется определить, может ли появившийся посторонний предмет повредить роботу или нет. Если может, то робот должен быть остановлен, в противном случае работу необходимо продолжить. Поскольку этот анализ должен выполняться автоматически и невозможно заранее описать все возможные посторонние объекты, то отнесение объекта к классу опасных или безопасных выполняется на основе таких общих характеристик, как, например, размеры s, скорость перемещения v, высота над уровнем пола h, извлеченных из стереоизображений помещения. Значения этих характеристик и будут данными наблюдений D = (s, v, h), а пространство гипотез будет Н = {«опасный», «безопасный»}.

Величины Р («опасный») и Р («безопасный») — это априорные вероятности соответствующих гипотез, т. е. частота опасных и безопасных посторонних объектов, появляющихся внутри данного помещения. Вероятность P(s, v,
h || «опасный») — доля всех опасных объектов, имеющих размеры s, скорость перемещения v и высоту h; аналогично Р (s, v, h | «опасный») — доля всех безопасных объектов с такими характеристиками. Эти условные вероятности определяют правдоподобие того, что объект с такой скоростью перемещения, размерами и положением над полом может быть причиной поломки робота в случае столкновения.

Оценки как априорных вероятностей, так и величин правдоподобия могут быть получены из обучающей выборки. Пусть, например, за время испытания системы обзора производственного помещения наблюдалось сто посторонних объектов, для которых были измерены характеристики s, v, h, а человеком была оценена степень опасности этих объектов. Тогда Р («опасный») — это число наблюдавшихся опасных объектов, деленное на сто, а Р(s, v, h | «опасный») — это число повстречавшихся опасных объектов со скоростью v, размером s и высотой h, отнесенное к общему числу повстречавшихся опасных объектов.

Теперь в процессе эксплуатации системы после обнаружения постороннего объекта и измерения его характеристик необходимо сравнить Р (s, v, h | «опасный») х Р («опасный») и Р (s, v, h | «безопасный») х Р («безопасный»), которые уже не представляет сложности вычислить. Чем больше появляется опасных объектов по сравнению с безопасными, тем более вероятно, что данный объект является опасным, и наоборот. Чем более характерны значения скорости перемещения, размера и положения над полом для данного класса, тем более вероятно, что обнаруженный объект относится именно к нему. Далеко не всегда можно будет однозначно заключить, к какому классу относится объект, поскольку их возможные характеристики перекрываются (к примеру, объекты с одинаковыми размерами могут представлять разную угрозу в зависимости от своей массы, которую, однако, на основе
изображения объекта оценить нельзя), но правило Байеса позволяет минимизировать среднее число ошибок.

Более подробно вопросы распознавания образов будут освещены в гл. 2 книги.