Главная > Прикладные методы анализа данных и знаний
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

2.3. Периодический закон Менделеева [65]

Согласно философии Data Mining обнаружение закономерностей одной из своих целей имеет отображение данных из исходного пространства описания  в некоторое другое пространство , более удобное для восприятия человеком.

Пространство описывающих характеристик  может быть произвольным — любой размерности, с любым числом объектов наблюдения. Пространство же восприятия должно отвечать некоторым условиям, вытекающим из ограниченных возможностей человеческой системы восприятия информации. Одно из таких ограничений связано с размерностью пространства : она не должна быть большой, так как объектами в многомерном пространстве человек оперирует с большим трудом. При большом количестве объектов восприятие облегчается, если эти объекты отобразить в малоразмерное пространство , в котором объекты оказываются упорядоченными по их свойствам. При этом можно обнаружить наиболее легко воспринимаемые человеком линейные зависимости свойств  от свойств . Если глобальной линейной зависимости во всем диапазоне значений  добиться не удается, то можно попытаться воспользоваться суперпозицией локальных линейных зависимостей.

Сформулируем принцип локальной линейной гладкости : «Свойства  в -окрестностях точки  пространства  меняются по линейному закону, так что свойства объекта в точке  равны среднему значению свойств его левого и правого соседей: ». Пользуясь этим принципом, можно для некоторого множества  сконструировать пространство восприятия . Покажем это на простом числовом примере.

Пусть множество  состоит из семи объектов, свойство  которых указано в табл. 11. Построим одномерное пространстве восприятия  с целочисленными значениями координаты . Поместим в точку  любой объект, например . Подберем к нему ближайшего левого соседа по свойству . Это, очевидно, будет объект . Из приведенного выше соотношения можно найти ожидаемые (прогнозные) свойства правого соседа: . Этим соседом оказывается объект . Разместим найденные три объекта рядом друг с другом по оси  (см. рис. 37).

Таблица 11. Объекты множества  в пространстве описания

5

1

3,2

7

7,9

2,2

6

Теперь можно предсказать соседей для крайних из этих элементов: левого для  и правого для . Соседом  должен быть объект со свойством . Объекта с точно таким значением  нет. Ближайшим к нему оказывается объект . Условимся считать, что разница 8 — 7,9 = 0,1 меньше допустимого порога нарушения гладкости (например, 0,3), и поставим объект  справа от объекта .

Прогнозное значение свойства  у левого соседа объекта  равно 4. Ближайшее к нему значение  у объекта  равно 3,2. Отклонение в 0,8 превышает заданный порог, и мы приходим к заключению, что ближайший левый сосед для объекта  в таблице отсутствует. Предположим, что в природе такой объект с  существует и он случайно не попал в таблицу. Поставим его условно слева от  (пунктир на рис. 37) и продолжим процедуру. Соседом слева от условного элемента является объект , его левым соседом будет , а его левым соседом . Все объекты табл. 11 нашли на оси  свое место. Теперь легко видеть, что если объект  поместить в точку , то между свойствами  и  существует простая закономерность: .

Рис. 37

Если объекты множества  обладают числом свойств, большим чем одно, то прогноз и подбор соседей нужно делать по всем этим свойствам. В случае двумерного пространства восприятия  соседями объекта  являются четыре объекта: сосед слева , справа , сверху  и снизу . Связь их свойств определяется соотношением

Процедура двумерного линейного упорядочения аналогична той, что описана выше для одномерного случая: выбор начального элемента  и ближайших к нему двух соседей слева и сверху. Затем прогноз свойств двух соседей — справа и снизу, подбор объектов, свойства которых отличаются от прогнозных не более чем на заданную величину, установка этих объектов на свои места и прогноз новых соседей. На каждом шаге устанавливается только один объект, самый близкий к прогнозу, и после этого прогнозы всех соседей повторяются.

На этом принципе построен алгоритм ПАМИР [65], предназначенный для решения задач многомерного упорядочения. С помощью программы ПАМИР был проведен ряд экспериментов по двумерному упорядочению объектов  различной физической природы. В табл. 12 и 13 показаны множества объектов с целочисленными значениями одного свойства  и наилучший их порядок на двумерной плоскости . Наилучшим считается такой вариант, при котором сумма локальных отклонений от линейной зависимости минимальна. Если истинные значения свойств объекта  равны , а его прогнозные свойства оказались равными , то отклонения от линейной зависимости для всех  объектов имеют значения

Пусть нам дано множество , описанное характеристикой : 4, 8, 3, 12, 9, 7, 6, 7, 10, 2, 8, 7, 11, 4, 9, 6, 7, 7, 5, 10, 6, 11, 8, 5, 4, 5, 9, 7, 3, 6, 9, 6, 10, 8, 9. Применение алгоритма ПАМИР позволило отобразить это множество в двумерное пространство восприятия , представленное в табл. 12.

Таблица 12. Двумерное упорядочение множества объектов

В табл. 13 представлен результат аналогичной обработки множества объектов , описанных свойством : 18, 30, 2, 8, 15, 12, 2, 4, 24, 10, 6, 16, 6, 9, 24, 15, 6, 20, 4, 18, 5, 12, 25, 4, 36, 12, 1, 10, 3, 3, 5, 12, 8, 30.

Таблица 13. Двумерное упорядочение множества объектов

Закономерность, легко наблюдаемая в табл. 12, выражается формулой , а в табл. 13  формулой .

Напрашивается вывод, что исходный набор объектов «не полон», отсутствующие объекты должны были бы занять места пустых клеточек в таблицах. Свойства этих «зкообъектов» легко прогнозируются по приведенным выше интерполяционным формулам.

Возможности алгоритма ПАМИР были испытаны в экспериментах по переоткрытию периодического закона Менделеева.

Множество  было представлено химическими элементами первых семи рядов — с 1-го (водород) по 54-й (ксенон). Пространство описания включало в себя лишь три свойства элементов:  — атомный вес,  — валентность по кислороду и  — валентность по водороду. В качестве пространства восприятия была использована плоскость с дискретными значениями переменных   и . Для каждого элемента определялось восемь соседей, как показано на рис. 38. Программа может анализировать гладкость по двум, четырем или восьми направлениям.

Рис. 38

В табл. 14 представлен результат работы программы ПАМИР. В качестве начального был выбран элемент с атомным весом 15 (фосфор). Рамкой показана граница таблицы в стандартном современном представлении [130]. Отклонения от стандартного вида имеют место для элементов длинного ряда VI группы VIII (элементы 44, 45 и 46).

Таблица 14. Двумерное упорядочение химических элементов

В табл. 15 показан результат упорядочения множества элементов таблицы с 1-го по 54-й за исключением крайних элементов длинных рядов (27, 28, 45, 46), а также элементов 12, 22, 35 и 39, которые были не известны во времена Менделеева. Программа, начав с элемента 17, расставила все элементы на те места, которые они занимают в таблице Менделеева, оставив пустые клетки в местах, соответствующих пропущенным элементам. Свойства пропущенных элементов легко можно найти по интерполяционным формулам, как это и делал Д. И. Менделеев.

Таблица 15. Результат упорядочения неполного множества элементов

Как видно из этих примеров, если столбцам в табл. 14 и 15 сопоставить номера групп, а строкам — номера рядов, то результат программы ПАМИР почти совпадает с результатом, полученным Д. И. Менделеевым. Однако следует отметить существенные различия в пространствах , использованных Менделеевым и программой ПАМИР. Д. И. Менделеев, кроме атомного веса и валентностей, использовал большое число других химических и физических свойств элементов: виды соединений с хлором, растворимость сернистых соединений, температуру плавления, цвет, запах летучих соединений и многое другое [97,122]. Все эти глубокие знания облегчали ему поиск «соседей» при упорядочивании элементов. Следует отметить, что задача группировки ряда элементов решалась еще и предшественниками Менделеева. Так, было известно, что в одну группу следует относить элементы с современными номерами: 7-15-33-51; 8-16-34-52; 9-17-53; 20-38-56 и т. д. Подсказка такого рода могла бы существенно облегчить работу программы ПАМИР.

С другой стороны, машина использовала современные данные об атомных весах. До Менделеева атомные веса были известны неточно, ему приходилось исправлять их путем предсказания на основании всей таблицы. Ошибки в значениях атомных весов могут существенно исказить упорядочение, если использовать такое бедное описание свойств , которое использовала программа.

Результаты данной работы можно сформулировать так: принцип локальной гладкости является эффективным средством отображения пространства описания  в пространство восприятия . Свойствами локальной гладкости обладают пространства восприятия, построенные для многих известных законов природы — законов Ома, Ньютона, Менделя, Менделеева и др. Этот принцип должен найти свое заметное место в ряду концептов, используемых в алгоритмах обнаружения закономерностей или DM.

Если пространство описания  наблюдаемых объектов множества  достаточно информативно, чтобы можно было построить пространство восприятия  со свойством локальной гладкости, то сам процесс построения пространства  с помощью ЭВМ принципиальных затруднений не вызывает. Это тем более справедливо для таких удачно найденных пространств , для которых пространство  удовлетворяет свойству глобальной линейной гладкости.

 

1
Оглавление
email@scask.ru