Главная > Основы моделирования и первичная обработка данных
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

10.5.3. Свойства наименьшего искажения геометрической структуры для главных компонент.

Приведем два утверждения о сохранении локальной геометрической структуры исходного множества точек при их проектировании на q первых компонент

1. Пусть L — произвольная -мерная гиперплоскость проходящая через начало координат, и пусть — проекции на эту гиперплоскость. Тогда величина равная сумме отклонений от L, достигает своего наименьшего значения, когда совпадает с гиперплоскостью С, натянутой на q первых главных компонент. При этом

    (10.24)

2. Рассмотрим далее матрицу Н размера () с элементами равными скалярному произведению векторов и пусть — аналогичная матрица, построенная по векторам . Геометрическая интерпретация этих матриц очевидна: — квадрат длины вектора а пропорционально косинусу угла между Оказывается, что

    (10.25)

где , т. е. гиперплоскость, натянутая на первых главных компонент, в наименьшей степени искажает длину и взаимные углы между проекциями.

Из (10.24), (10.25) следует, что в качестве меры сохранения геометрических свойств объектов при проектировании на L можно использовать либо величину

либо величину

Программы, обеспечивающие выполнение метода главных компонент, входят практически во все пакеты статистических программ. Основные недостатки метода главных компонент связаны с тем, что, во-первых, оценка 2 может быть искажена из-за больших незамеченных «выбросов» в данных («outliers») и, во-вторых, метод главных компонент ориентирован прежде всего на выявление линейных связей.

С первой из указанных проблем можно справиться путем перехода к различного рода устойчивым оценкам, например взвешенным оценкам (см. п. 10.4.6 и [49]), либо путем предварительного удаления выбросов с помощью тех же, например, диаграмм рассеивания. Возможно также оценивание не по всей выборке, а только по какой-либо ее части. Например, в медицинских исследованиях — по данным практически здоровых пациентов. Аналогично для улучшения обозримости диаграммы рассеивания в случае большого числа объектов целесообразно проектировать не все наблюдения, а только ту их часть, которая в первую очередь интересует исследователя.

Для того чтобы преодолеть второй недостаток, можно использовать один из нелинейных методов отображения данных б пространство малой размерности.

1
Оглавление
email@scask.ru