Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.3.2. Проблемы, возникающие при выборе метрики «хи-квадрат» в факторном типологическом анализе и предлагаемое решение

В процессе работы алгоритма приходится пересчитывать главные оси инерции классов, полученных разбиением множества индивидуумов, т. е. анализировать подмножества условных вероятностных законов.

Пусть разбиение на К классов. Сгущение имеет центр тяжести

где (см. обозначения в 6. 3. 1).

Сгущению соответствует часть таблицы данных размерности Имеем

Пусть матрица инерции, связанная со сгущением с общим членом

Для решения задачи необходимо вычислить и диагонализовать для каждого класса матрицу где метрика с центром, который выбирается исходя из следующих двух возможностей (см. 6.3.2.1 и 6.3.2.2).

6.3.2.1. Метрика «хи-квадрат» с центром, связанным со всем сгущением

В этом случае следует рассматривать (изоморфное с метрикой

где связанной с Тогда алгоритм будет совпадать с описанным в 6.2.3 и, следовательно, сходиться, но для каждого отдельного класса проведенный анализ не будет совпадать с факторным анализом соответствий, так как выбранный центр метрики являясь центром всего сгущения, вообще говоря, не будет центром этого класса. Ясно, что глобальное сгущение допускает два эквивалентных евклидова представления

Поэтому локальный анализ может рассматриваться как анализ главных компонент преобразованных сгущений:

матрица инерции которых имеет вид

где

Замечание 1.

поскольку равно -полной массе класса

Видно, что диагонализуемая матрица (6) из 6.3.1 не учитывает коэффициент В самом деле, матрица, которую следует диагонализовать, имеет общий член

После несложных вычислений легко убедиться, например, что собственный вектор, отвечающий собственному значению к матрицы является собственным вектором, отвечающим собственному значению к -матрицы (6), рассчитанной по сгущению

Замечание 2. Распределительная эквивалентность при таком выборе центра не имеет места.

Пусть сгущение индексов параметров класса где

Предположим теперь, что существуют такие, что т. е.

тогда

а из равенств, приведенных выше, следует

Распределительная эквивалентность будет иметь место, если

так как тогда

Условие вообще говоря, не выполняется. В дальнейшем мы увидим, что при справедливости гипотезы матрицы, которые следует диагонализовать, будут одни и те же, если выбирать в качестве центра (центр глобального сгущения) или (центр сгущения

Замечание 3. Если выбранным центром является то расстояния между индивидуумами из класса не зависят от принадлежности их к этому классу и равны расстояниям в глобальном сгущении:

В этом случае локальный анализ проводится на подсгущениях глобального сгущения, форма которых (по существу, определяемая метрикой) не меняется в процессе анализа. Это будет не так, если для каждого выбирать соответствующий центр (см. 6.3.2.2).

Замечание 4. Сгущение параметров не может рассматриваться независимо от целей анализа. Существует столько подсгущений, сколько имеется классов:

с

и

с метрикой, задаваемой вектором снабженной аналогичной метрикой

Расстояния между параметрами равны соответственно:

Если гипотеза справедлива, то всегда получают одно и то же представительство для облака параметров, каков бы ни был класс В противном случае параметры играют в анализе класса роль, тем более отличную от их роли в глобальном анализе, чем менее верна эта гипотеза.

6.3.2.2. Метрика «хи-квадрат» с центром, связанным с классом k

Обозначим для каждого через метрику на такую, что

через распределение вероятностей на такое, что

Класс представляет собой сгущение и симметричная матрица, которую следует диагонализовать, чтобы выполнить анализ соответствий этого сгущения, имеет общий член вида (для центральной матрицы инерций)

и (для начальной матрицы инерций)

причем является собственным вектором матрицы соответствующим собственному значению и собственным вектором матрицы соответствующим собственному значению x Если такой вектор, что

то называется собственным нормализованным вектором, где собственное значение.

Таким образом, локальный анализ является факторным анализом соответствий для каждого класса причем, с одной стороны, мы имеем

где удовлетворяет соотношению т. е. локальные анализы проводятся для частных сгущений модифицированной (в зависимости от формы (см. 6.3.2.1, замечание 3). С другой стороны, появляются нежелательные эффекты на этапах 3 и 2 итерационного процесса, описанного в 6.2.3.1.

К этапу 3 таблица (близостей «индивидуумы — классы») построена следующим образом: расстояния индивидуумов, составляющих множество до каждого центра агрегирования вычисляются с помощью метрики и системы масс, связанных с этим центром: всякий индивидуум из не принадлежащий к проектируется на центр агрегирования как дополнительный индивидуум к анализу класса.

При построении нового разбиения каждый индивидуум из относят к тому классу, относительно центра которого он имел бы наименьший момент инерции, если бы принадлежал к этому классу.

Уменьшение критерия гарантировано на этом этапе, чего нельзя сказать, вообще говоря, относительно этапа 2. Более подробно об этом см. в 6.3.3.

Резюме. В первом случае таблица получается более «однородным» образом, т. е. близость вычисляется в с помощью одной и той же метрики без учета принадлежности индивидуума х к классу, что, вообще говоря, не всегда желательно, так как локальные анализы при этом не являются анализами соответствий классов.

Во втором случае локальные анализы являются, конечно, анализами соответствий классов, что для некоторых исследований (см. 6.3.3) кажется необходимым, но тогда возникает проблема сходимости алгоритма (см. 6.3.3.2).

Замечание. Сравнение матриц, которые надо диагонализовать, в указанных случаях показывает, что

и что два описанных подхода полностью эквивалентны в частном случае, когда справедлива гипотеза Так как эквивалентна тому, что то эти два метода эквивалентны лишь тогда, когда центры тяжести классов совпадают с глобальным центром тяжести.

1
Оглавление
email@scask.ru