Критерии сравнения гипотез

Сформулировав задачу индуктивного вывода как выбор из некоторого множества модели, наилучшим образом объясняющей исходные данные, приходим к первичной проблеме, заключающейся в установлении приемлемого критерия для выбора лучшей модели. Нахождение такого критерия — это центральный вопрос, общий для таких областей, как статистический анализ, машинное обучение и философия науки [2, с. 3]. Отметим, что здесь идет речь именно об универсальном критерии, который можно было бы использовать при решении любой задачи, представляемой в виде индуктивного вывода. Частные же критерии, которые придумываются человеком для решения конкретных задач, обычно оказываются неприменимы в новых задачах, поэтому для решения последних требуется творческое участие человека.

Было бы естественно предположить, что лучшая модель — это та, которая наиболее близка к истинной модели. Но тогда нужно было бы не только иметь возможность задать метрику в пространстве моделей, но и заранее знать истинную модель, а это доступно лишь в исключительных случаях. В некоторых задачах статистического анализа вводятся частные критерии близости данной модели к истинной, такие, как, например, среднеквадратичное отклонение. Однако подобные критерии, хотя и могут казаться интуитивно очевидными, перестают давать адекватный результат как только нарушаются заложенные в них (явные или неявные) априорные предположения. Такие примеры мы еще подробно разберем.

Принципиально другой подход к обсуждаемой проблеме заключается в выборе той модели, которая дает наибольшую точность предсказания. Классическим приемом для получения объективной оценки точности предсказания является разделение выборки на обучающую и тестовую части. Существуют также различные методы перекрестной проверки. Однако, во-первых, использование тестовой выборки приводит к уменьшению объема данных, по которым строится модель, а значит, понижается и точность модели. Во-вторых, не во всех задачах индуктивного вывода можно численно выразить точность предсказания. Поэтому ее желательно оценивать косвенно, привлекая некий другой критерий.

В философии науки используются такие критерии, как простота гипотезы (часто, особенно в зарубежной литературе, этот критерий связывается с принципом бритвы Оккама) и ее фальсифицируемость (отождествляемая с содержательной емкостью) [1, с. 231]. Принцип фальсифицируемости, введенный К. Р. Поппером, гласит, что выбирать нужно ту гипотезу, которая раньше других опровергалась бы новыми данными, полученными в результате наблюдений или эксперимента, если была бы ложной. Возможно, что понятия простоты и фальсифицируемости по смыслу достаточно близки [1, с. 233]. К сожалению, эти критерии остаются бесполезными для вычислительного индуктивного вывода до тех пор, пока не являются вполне формализованными.

Именно понятие простоты используется в байесовских методах для определения априорных вероятностей моделей [5, с. 715]. В этих методах (как и в ряде других статистических методов) лучшей считается наиболее вероятная модель. Вообще, понятие вероятности неразрывно связано с индуктивным выводом: «…не только при анализе статистических выводов, но и при обсуждении, на первый взгляд, чисто качественных проблем индукции исчисление вероятностей играет центральную роль. Более того, хотя статистические выводы можно считать всего лишь частными и нетипичными образцами индуктивных выводов, нельзя сколько-нибудь обоснованно отказать им в принадлежности к области индуктивной логики» [1, с. 6]. А поскольку за байесовским выводом закрепилась репутация оптимального вывода, то следующая глава будет посвящена его рассмотрению.

Проблемой, сопутствующей установлению критерия рациональности гипотез, является выбор пространства гипотез, размер которого может заметно варьироваться в зависимости от задачи. Так, в статистическом выводе могут рассматриваться однопараметрические классы моделей, а могут — и гораздо большей размерности. Но в целом статистический анализ характеризуется наиболее ограниченными пространствами гипотез. В машинном обучении существуют проблемы, тесно примыкающие к статистическому выводу и также вовлекающие пространства гипотез «обозримого» размера. Наименее ограниченные пространства гипотез рассматриваются, пожалуй, в индуктивном выводе, изучаемом философией (что хорошо видно по возникающим здесь парадоксам, на которых мы еще остановимся позднее), и при разработке универсальных систем машинного обучения.

Ограничение, накладываемое на пространство гипотез, можно трактовать как априорно принятое решение об отказе проводить сравнение качества всех гипотез, не вошедших в выбранное пространство. Таким образом, задание пространства гипотез и определение критерия их сравнения — это разные стороны одной и той же проблемы, что более явно будет показано позднее. Поэтому неудивительно, что наибольшие сложности в установлении приемлемого критерия сравнения моделей возникают именно в философии науки и при разработке «сильного» искусственного интеллекта. Хотя эти теоретические сложности и находят свое отражение в конкретных практических проблемах, но последние менее ярко выражены. Принцип бритвы Оккама, привлекаемый в первой из этих областей, нашел во второй области свое формальное численное воплощение, которое позволяет разрешить эти сложности, по крайней мере частично. Оно и будет составлять основной предмет данной книги.