13.4. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез
Смысл математико-статистических методов, как известно, состоит в том, чтобы по некоторой части исследуемой генеральной совокупности (по выборке или, что то же, по ограниченному ряду наблюдений
) выносить обоснованные суждения о ее свойствах в целом.
Применительно к рассматриваемой задаче нас в первую очередь интересует, как сильно свойства и характеристики выборочных главных компонент могут отличаться от соответствующих свойств и характеристик главных компонент всей генеральной совокупности и, в частности, как эта мера отличия зависит от объема выборочной совокупности
, по которой эти выборочные главные компоненты были построены. Так, например, для изучения природы внутренних связей между характеристиками различных статей семейного бюджета потребления и для выявления небольшого числа наиболее существенных в этом смысле показателей исследователь может обследовать какое-то количество
семей и по полученным результатам наблюдения
построить главные компоненты
Однако, увеличивая объем выборки
, т. е. добавляя к имеющимся наблюдениям результаты наблюдения по дополнительно обследованным семьям, естественно ожидать, что пересчет главных компонент с учетом добавленных наблюдений, вообще говоря, изменит (хотя, быть может, и незначительно) ранее полученные значения интересующих нас характеристик:
и т.п.
В то же время существует, по-видимому, такое (столь большое)
, дальнейшее увеличение которого уже не будет практически приводить к изменению основных характеристик главных компонент (другими словами, мы вправе ожидать, что главные компоненты выборок достаточно большого объема практически совпадают с главными компонентами всей генеральной совокупности).
Выяснению некоторых вопросов, связанных с оценкой близости различных выборочных
и теоретических
характеристик главных компонент, и посвящен настоящий параграф. Приведенные ниже результаты исследований неизменно опираются на допущение нормальности исследуемой генеральной совокупности и взаимной независимости извлеченных из нее наблюдений. Как и прежде, под
будем понимать центрированные наблюдения, которые, строго говоря, даже при независимых исходных наблюдениях уже не будут независимыми. Однако при достаточно больших
можно пренебречь этим эффектом нарушения независимости. Таким образом,
(как следует из предыдущего, вектор средних значений
определяет лишь точку в
-мерном пространстве, в которую переносится начало координат при переходе к главным компонентам, и с самого начала будем считать этот перенос уже осуществленным).
Вспомогательные факты, относящиеся к свойствам выборочных характеристик главных компонент [16, 279, 177, 176, 236, 235, 20]. Если все характеристические корни
ковариационной матрицы 2 различны, что и имеет место в большинстве приложений анализа главных компонент, то справедливо следующее:
1) характеристические корни
и соответствующие им собственные векторы
выборочной ковариационной матрицы
являются оценками максимального правдоподобия для соответствующих теоретических характеристик (соответственно
) и обладают всеми хорошими свойствами этих оценок (состоятельность, асимптотическая эффективность). Следовательно, выборочные главные компоненты
можно интерпретировать как оценки главных компонент
всей генеральной совокупности.
6) если компоненты
вектора наблюдений X взаимно независимы и пронормированы таким образом, что
причем существуют все моменты
и если объем выборки
и размерность
одновременно достаточно велики, причем
то распределение случайно выбранного из последовательности
, характеристического корня «слабо сходится» к некоторому предельному распределению (сосредоточенному на конечном отрезке), моменты которого задаются формулой
так, что
и т. д. (здесь с — некоторая постоянная величина, причем
). Примером подобного соотношения между объемом выборки и размерностью может служить задача, описанная в [9, § 2 гл. V], в которой
(так что
В заключение приведем два факта, относящихся к ситуациям, в которых компоненты нормального вектора наблюдений X взаимно независимы:
7) пусть
где ковариационная матрица имеет диагональный вид, т. е.
при
. И пусть
— определитель выборочной корреляционной матрицы, построенной по наблюдениям
Тогда при достаточно больших
статистика критерия отношения правдоподобия для проверки гипотезы о диагональном виде
может быть определенаввиде
а для ее функции распределения справедливо приближенное соотношение
при относительной ошибке, не превосходящей сотых долей процента;
Возвращаясь к примеру 13.1, по формуле (13.9) находим 95%-ный
доверительный интервал Для наименьшего характеристического корня
по его выборочному значению
. В этом случае
так что
Возможно обобщение асимптотического (по
) доверительного интервала на случай кратных, т. е. повторяющихся, корней. Если
—кратность корня
то 100 (
-ный доверительный интервал для неизвестного значения
задается неравенством
(13.15)
где
Вопрос о том, что неизвестный характеристический корень
имеет кратность и, в частности, кратность, равную
, может быть решен с помощью следующего критерия, предложенного в [176];
2) проверка гипотезы о равенстве нескольких (а именно
) характеристических корней:
Очевидно, альтернативой этой гипотезе является утверждение, что не все корни среди
равны между собой. Оказывается, в предположении справедливости проверяемой гипотезы статистика
распределена (асимптотически по
) по закону «хи-квадрат» с
степенью свободы. Поэтому гипотеза
отвергается (с вероятностью ошибиться, равной
, если
где
точка
-распределения с
степенями свободы.
Особый интерес может представить специальный случай
т. е. проверка гипотезы о равенстве последних
собственных значений X, что будет означать независимость и сферичность
последних признаков исследуемого вектора наблюдений.
Возвратимся к примеру 13.1. Тот факт, что оценка второго собственного значения
попадает в доверительный интервал для
(см. выше), приводит к мысли, что, возможно,
Проверим эту гипотезу. В данном случае
так что
А поскольку
и, следовательно,
то гипотезу
следует принять. Но тогда следует пересчитать доверительный интервал для
с учетом его кратности (в соответствии с (13.10)). Несложные подсчеты (при
и соответственно
дают:
последнее неравенство будет справедливо в среднем в 95 случаях из 100;
3) проверка гипотезы о независимости признаков
являющихся компонентами вектора наблюдений X. Такая проверка нужна для установления целесообразности применения метода главных компонент: если признаки являются взаимно независимыми, то переход к главным компонентам сведется, по существу, лишь к упорядочению исходных признаков по принципу убывания их дисперсий. Воспользуемся статистикой критерия отношения правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере.
Пример 13.2. Исследовалось время, затрачиваемое работниками швейной фабрики на выполнение различных элементов операции глаженья одежды. Эту операцию можно разделить на следующие шесть элементов:
1) одежда размещается на гладильной доске
2) разглаживаются короткие швы
;
3) одежда перекладывается на гладильной доске
4) разглаживаются длинные швы на три четверти
5) разглаживаются остатки длинных швов
6) одежду вешают на вешалку
В этом случае
представляет собой вектор измерений над
индивидуумом. Компонента х — это время, затраченное на выполнение
элемента операции,
Данные (время в секундах) обработаны, получены выборочные вектор среднего значения
и ковариационная матрица
:
Выборочные стандартные отклонения равны (1,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляционная матрица
имеет вид:
Для исследователей представляет интерес проверка гипотезы о взаимной независимости шести случайных величин. Часто при изучении затрат времени предлагается новая операция, в которой элементы комбинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выброшены. Если оказываются независимыми величины, обозначающие время, затрачиваемое на различные элементы операции, то естественно считать, что и в новой операции они останутся независимыми. Тогда распределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для остальных элементов.
Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с помощью которых можно производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле).
В этой задаче статистика критерия отношения правдоподобия, определенная в соответствии с п. 7 (см. с. 357), имеет вид:
Задавшись уровнем значимости критерия
(вероятность ошибочно отвергнуть проверяемую гипотезу), находим (из таблиц) величину 1%-ной точки
-распределения с 15 степенями свободы:
Поскольку
то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать независимыми:
4) статистическая проверка некоторых предположений (гипотез) относительно собственных векторов
ковариационной матрицы исследуемых признаков
. Пусть у нас есть основания предполагать, что «нагрузки» всех признаков на первую главную компоненту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е.
или, напротив, что некоторые из признаков, скажем
и вообще не влияют на первую главную компоненту (т. е.
в то время как остальные
признака влияют на нее симметрично, т. е.
и т. д.
Для решения подобных вопросов можно использовать статистический критерий равенства
собственного вектора неизвестной ковариационной матрицы некоторому заранее заданному вектору
. В [176] показано, что гипотеза должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно равной а), если окажется, что
где подразумевается, что характеристический корень оценка которого участвует в выражении для критической статистики, имеет кратность, равную единице, а все остальные величины соответствуют ранее введенным обозначениям;
5) проверка гипотезы о равнокоррелированности всех
исходных признаков, т. е. гипотезы
, где Гц — парный коэффициент корреляции между признаком
и признаком
[279]. Эта гипотеза означает, что последние
характеристических корней корреляционной матрицы равны между собой. Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные выражения в виде решений соответствующих характеристических уравнений (
и т.д.) [279, с. 224].
Оказывается, гипотезу
следует отвергнуть (с вероятностью ошибиться, приблизительно равной а), если
где
— выборочные парные коэффициенты корреляции между и
подсчитанные по наблюдениям
а
Возвращаясь к примеру 13.1, имеем:
Несложные подсчеты дают:
, так что в конечном счете
.
Задавшись уровнем значимости
и отыскав по таблицам
приходим к выводу, что гипогеза о равнокоррелированности всех трех исходных признаков может быть признана не противоречащей имеющимся у нас результатам наблюдения.