Принятие решений и предсказание на основе правила Байеса

Мы уже упоминали о возможных различиях между индуктивным выводом и такими проблемами, как предсказание и принятие решений. Здесь мы коснемся этого вопроса чуть подробнее применительно к правилу Байеса.

В распознавании образов выбор класса, к которому с наибольшей вероятностью принадлежит данный объект, часто рассматривается в качестве конечной цели. Однако такой подход в ряде случаев может приводить к неожиданным (на первый взгляд) результатам. Типичным примером [52, с. 83] является установление медицинского диагноза. В случае, если диагностику проходят люди, среди которых здоровых гораздо больше, чем больных, а значит, априорная вероятность того, что данный человек здоров, существенно выше априорной вероятности того, что он болен, то большая часть больных будет классифицирована как здоровые.

При «неоптимальной» классификации долю неверно классифицированных больных можно заметно уменьшить, но при этом гораздо сильнее возрастет доля неверно классифицированных здоровых людей. А это и означает, что число ошибок классификации увеличится по сравнению с байесовским подходом, но, тем не менее, «неоптимальный» результат оказывается предпочтительнее. Означает ли это, что следует отказаться от правила Байеса? Нет. Выходом здесь является назначение величин потерь, связываемых с той или иной неверной классификацией. Если вернуться к примеру с обзором производственных помещений, то потери здесь будут иметь конкретное денежное выражение: стоимость ремонта робота в случае пропуска опасного объекта и потери от простоя производства в случае ложной тревоги. Таким образом, минимизироваться будет не число ошибок, допущенных в ходе классификации, а потери, вызванные этими ошибками.

Возвращаясь от проблемы распознавания образов к более общей задаче, устанавливаем, что каждой гипотезе hi нужно присвоить некоторый вес wi, определяющий ценность этой гипотезы. Тогда лучшую гипотезу нужно выбирать согласно величине w_{i}P(h_{i})P(D|h_{i}).

Однако может возникнуть и другая задача, в которой лучшую гипотезу выбирать не нужно, а необходимо сделать предсказание. Предположим, например, что каждой гипотезе hi соответствует конкретное значение wi некоторой величины W. Тогда оценку значения этой величины с учетом апостериорных вероятностей гипотез можно сделать следующим образом:

formula_54

Однако такое рассмотрение имеет смысл только в том случае, если значения wi не являются дискретными, например, если величины wi — это некоторые потери, связанные с реализацией конкретной гипотезы (здесь то, какая именно гипотеза реализуется, не зависит от нашей воли, поэтому эта задача несколько отличается от проблемы принятия решения). В противном случае есть опасность получить такой ответ w0 в качестве наиболее вероятного, как, например, два с половиной человека, если у нас есть две равновероятные гипотезы, которые утверждают, что ответы — два и три человека соответственно. Поэтому чаще с каждой гипотезой связывают некоторое распределение вероятностей P(wj | hi), а саму величину W трактуют как случайную. Аналогично получаем:

formula_55

Заметим, что здесь мы продолжаем считать, что

formula_56

а точнее, что имеет место одна, и только одна, гипотеза. Наряду с уравнением (1.4) уравнение (1.6) часто рассматривают как основу байесовского вывода. Уравнение (1. 6) показывает, что лучшие предсказания — это средневзвешенные значения по предсказаниям отдельных гипотез. Таким образом, при байесовском подходе предсказание строится при использовании всех гипотез, вместо того, чтобы использовать единственную «лучшую» (апостериорно наиболее вероятную).

Уравнение (1.6) можно преобразовать к виду

formula_57

Видно, что при использовании уравнения (1.6) суть байесовского подхода не изменяется, а просто вводится дополнительный уровень вывода. Это оказывается полезным, когда вероятности P(wj | D) не могут быть вычислены напрямую из данных, и приходится привлекать какие-то модели. Например, мы не сможем предсказать наиболее вероятное положение некоторой планеты на небе по ее предыдущим положениям, если не рассмотрим модели ее движения. Более подробно на задаче предсказания мы останавливаться не будем, а перейдем к тем проблемам, которые являются общими для всех байесовских методов.