Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
Часть I Введение в анализ данных
Глава 1 Основные понятия
В этой книге описываются методы обработки информации,
представленной в различной форме — в виде «данных», «знаний», «структур» и т.
д. В основе анализа всех этих видов информации лежат две процедуры: процедура
обнаружения закономерностей, содержащихся в представленной информации, и
процедура использования обнаруженных закономерностей для предсказания значения
одной части информации по известным значениям другой ее части. Но прежде чем
переходить к описанию этих процедур, нужно пояснить смысл употребляемых в
книге терминов, в частности таких распространенных, как данные, знания, гипотеза,
закономерность и т. п.
§ 1. Чем отличаются «данные» от «знаний»?
Исходная
информация, которую нужно обрабатывать, чаще всего имеет вид числовых таблиц
(матриц), состоящих из строк и столбцов.
Строки отражают информацию об
изучаемых объектах или явлениях, а столбцы отражают свойства (признаки,
характеристики) этих объектов или явлений. Природа объектов может быть любой —
это могут быть физические тела, живые организмы, сигналы, отдельные социальные
процессы, заводы, виды спорта, месторождения и т. д. Понятно, что набор
признаков, описывающих эти объекты, будет в каждом случае своим и должен
отражать их наиболее важные свойства.
На пересечении -й строки и -го столбца указывается значение
-го признака у -го объекта. Такой факт
(например, что -й
дом имеет высоту 12 м) считаем атомарной частью данных о конкретном -м объекте. Полные данные
об -м объекте
содержатся в совокупности всех элементов -й строки. Информация же о всех заданных
свойствах всех изучаемых объектов, записанная в таблице «объект-свойство», и
называется таблицей данных. Таким образом, данные представляют собой
совокупность отдельных конкретных фактов.
Пусть в таблице данных представлены описания большого
количества жилых домов, а нас интересуют только три свойства этих домов: из
какого материала они построены, в какой цвет покрашены их стены и какой они
высоты. После изучения таблицы данных мы можем обнаружить некоторые
закономерности. Например, выясняется, что все панельные дома, окрашенные в серый
цвет, имеют высоту от 15 до 25 м, панельные зеленые дома — от 8 до 16 м, а кирпичные, вне зависимости от цвета стен, имеют высоту меньше 10 м. Обозначим признак «вид строительного материала» через . Этот признак принимает два понятных
значения: (панель)
или (кирпич).
Признак «цвет стен», обозначаемый через принимает значения: = серый, = зеленый или = любой. Признак
«высота» может
принимать любое числовое значение от нуля до 30 м. Тогда обнаруженные закономерности можно сжато записать в виде таких логических высказываний:
Эти высказывания не содержат информации в виде конкретных
характеристик каждого отдельного дома, но зато отражают наши знания о некоторых
обобщенных характеристиках всех домов, описанных в таблице данных.
Так
выглядит переход от данных к знаниям. Знания представляют собой краткое
обобщенное описание основного содержания информации, представленной в данных.
Знания могут быть представлены в различной форме. В дальнейшем мы будем пользоваться
приведенной выше формой в виде логических правил типа «если ... то ...».