Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
Глава 3 Базовые гипотезы, лежащие в основе методов анализа данных
Как будет видно из дальнейшего, строгие математические
методы, используемые в математической статистике, разработаны для случаев,
когда о распределениях анализируемых генеральных совокупностей известно все, что
только может потребоваться в процессе решения задачи: известны виды законов
распределений и все их параметры, априорные вероятности появления образов,
матрица потерь от ошибок и т. д.
К сожалению, при решении реальных задач анализа данных
такие условия не встречаются. Так, в задаче распознавания обучающая выборка
каждого из
образов представлена конечным
числом
реализаций
, описанных
характеристиками
.
Сведений о законах и параметрах распределения генеральных совокупностей
образов нет. В частности,
ничего не известно о зависимости одних признаков от других. Не известна связь
обучающей выборки с генеральной совокупностью, т. е. не известна степень
представительности
выборки. Владелец
обучающей выборки («заказчик») имеет туманные представления об априорной
вероятности появления разных образов и о матрице стоимости ошибок
распознавания. (Оставим пока в стороне те обычно сопутствующие факты, что
выборка бывает очень небольшой, в данных есть ошибки и пробелы, признаки
измерены в разных шкалах и среди них имеются неинформативные, шумящие признаки
и пр.)
Совершенно очевидно, что для приведения ситуации к виду,
при котором можно было бы применить тот или иной статистический алгоритм, нужно
к имеющейся объективной информации добавить ряд субъективно выбираемых
предположений или гипотез. Этот этап привнесения эвристических гипотез,
значение которого подчеркивалось в первой главе, имеет место во всех случаях
решения реальных задач распознавания образов и потому деление алгоритмов на
строгие статистические и нестрогие эвристические не имеет смысла.
Дополнительные гипотезы могут носить общий характер или
касаться мелких частностей. Здесь будут описаны две базовых гипотезы —
компактности и
-компактности
[74] — и показано их влияние на характер алгоритмов анализа данных.