Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
Глава 3 Базовые гипотезы, лежащие в основе методов анализа данных
Как будет видно из дальнейшего, строгие математические
методы, используемые в математической статистике, разработаны для случаев,
когда о распределениях анализируемых генеральных совокупностей известно все, что
только может потребоваться в процессе решения задачи: известны виды законов
распределений и все их параметры, априорные вероятности появления образов,
матрица потерь от ошибок и т. д.
К сожалению, при решении реальных задач анализа данных
такие условия не встречаются. Так, в задаче распознавания обучающая выборка
каждого из образов представлена конечным
числом реализаций
, описанных характеристиками .
Сведений о законах и параметрах распределения генеральных совокупностей образов нет. В частности,
ничего не известно о зависимости одних признаков от других. Не известна связь
обучающей выборки с генеральной совокупностью, т. е. не известна степень
представительности выборки. Владелец
обучающей выборки («заказчик») имеет туманные представления об априорной
вероятности появления разных образов и о матрице стоимости ошибок
распознавания. (Оставим пока в стороне те обычно сопутствующие факты, что
выборка бывает очень небольшой, в данных есть ошибки и пробелы, признаки
измерены в разных шкалах и среди них имеются неинформативные, шумящие признаки
и пр.)
Совершенно очевидно, что для приведения ситуации к виду,
при котором можно было бы применить тот или иной статистический алгоритм, нужно
к имеющейся объективной информации добавить ряд субъективно выбираемых
предположений или гипотез. Этот этап привнесения эвристических гипотез,
значение которого подчеркивалось в первой главе, имеет место во всех случаях
решения реальных задач распознавания образов и потому деление алгоритмов на
строгие статистические и нестрогие эвристические не имеет смысла.
Дополнительные гипотезы могут носить общий характер или
касаться мелких частностей. Здесь будут описаны две базовых гипотезы —
компактности и -компактности
[74] — и показано их влияние на характер алгоритмов анализа данных.