8.2. Результаты для многомерных случайных величин
Напомним читателю, что в множестве эрмитовых матриц вводится частичное упорядочение
(8.2.1)
означающее, что матрица
неотрицательно определена. Это отношение порядка обсуждается, например, в книгах: Bellman (1960), Гельфанд и др. (1960) и Siotani (1967). Среди следствий неравенства (8.2.1) отметим такие:
(8.2.2)
и
здесь
обозначают
в порядке возрастания собственные значения А и В соответственно.
Далее, когда в формулировке теоремы речь пойдет о минимизации эрмитовой матричной функции А (0) аргумента 0, под этим будет подразумеваться отыскание такого значения
что
(8.2.6)
при всех 0. Значение
называется минимальным значением
Заметим что если
минимизирует
то из (8.2.2) — (8.2.5) вытекает, что
минимизирует одновременно функционалы
Введем еще некоторые новые обозначения. Пусть Z — произвольная матрица со столбцами
Тогда вектор-столбец, составленный из столбцов матрицы Z, помещенных один под другим, обозначим
(8.2.7)
Для любых матриц U и V назовем их кронекеровым произведением матрицу
составленную из блоков по следующему правилу: если V имеет размеры
то
(8.2.8)
Два вновь введенных объекта связаны важным соотношением
(8.2.9)
(предполагается, что матрицы, фигурирующие здесь, имеют надлежащие размеры), см. упр. 8.16.26. Neudecker (1968) и Nissen (1968j рассматривают приложения этих определений в статистике.
Займемся теперь поисками минимума. Пусть случайные векторы X и Y имеют соответственно
и s компонент. Рассмотрим
-мерный вектор
(8.2.10)
Допустим, что (8.2.10) имеет среднее значение
и ковариационную матрицу
(8.2.12)
Если мы хотим найти
-компонентный вектор
-матрицу а, минимизирующие
-эрмитову матрицу
(8.2.13)
то решение этой задачи дает
Теорема 8.2.1. Пусть задан
случайный вектор (8.2.10) со средним (8.2.11) и ковариационной матрицей (8.2.12). Предположим, что матрица
невырожденна. Тогда (8.2.13) минимизируют величины
(8.2.15)
и
Соответствующее минимальное значение равно
Назовем величину а, определенную формулой (8.2.15), коэффициентом регрессии Y на X. Случайный вектор
(8.2.17)
называется наилучшим линейным прогнозом Y, основанным на X. Указанные в теореме
и а доставляют также минимум детерминанту, следу, диагональным элементам и собственным значениям матрицы (8.2.13). Дадим библиографические ссылки на эту теорему: Whittle (1963а, гл. 4), Goldberger (1964, стр. 280), Rao (1965), Khatri (1967). При
квадрат коэффициента корреляции Y с его наилучшим линейным прогнозом, именуемый квадратом множественного коэффициента корреляции, имеет вид
(8.2.18)
В случае многомерной величины Y рассматривают матрицу с ней мы встретимся при обсуждении
ионических корреляций в гл. 10. Полезными могут оказаться функции этой матрицы, принимающие действительные значения, скажем ее след и детерминант. Эта матрица была введена в работе Khatri (1964). Tate (1966) сделал ряд замечаний о многомерных аналогах коэффициента корреляции, см. также Williams (1967) и Hotelling (1936).
Определим векторную случайную величину
(8.2.19)
которую будем называть ошибкой. Она представляет собой остаточный член при аппроксимации Y лучшим линейным прогнозом, основанным на X. Ковариационная матрица для
задается формулой
(8.2.20)
т. е. совпадает с матрицей (8.2.16). Ковариация величины
называется частной ковариацией
она выступает в качестве меры линейной зависимости величин
, остающейся после удаления линейного влияния X. Аналогичным образом коэффициент корреляции
называется частной корреляцией
Эти параметры рассмотрены в книгах: Kendall, Stuart (1961), гл. 27, и Morrison (1967, гл. 3).
В том случае, когда величина (8.2.10) имеет многомерное нормальное распределение, ее прогноз, предлагаемый теоремой 8.2.1, оказывается наилучшим в более широком классе прогнозов.
Теорема 8.2.2. Предположим, что многомерная случайная величина (8.2.10) со средним (8.2.11) и дисперсией (8.2.12) распределена по нормальному закону, и пусть матрица невырожденна. Векторная s-компонентная функция Ф (X), имеющая
, которая минимизирует
(8.2.21)
определяется равенством
(8.2.22)
Минимальное значение (8.2.21) равно (8.2.16).
Для нормально распределенных величин условным распределением Y при заданном X будет
(8.2.23)
так что частная корреляция
оказывается условной корреляцией
при заданном X.
Перейдем к некоторым деталям оценки параметров в сформулированных теоремах. Допустим, что мы располагаем выборкой
, из значений величины, для которой выполнены условия теоремы 8.2.1. Для удобства будем полагать, что
Введем
-матрицу х и
-матрицу у:
(8.2.25)
Можно оценить ковариационную матрицу (8.2.12), взяв
и
Коэффициент регрессии Y на X можно оценить матрицей
(8.2.28)
а в качестве оценки матрицы (8.2.20) предложим
(8.2.29)
причина замены множителя
на
в этой оценке становится ясной при рассмотрении следующей теоремы.
Теорема 8.2.3. Предположим, что (8.2.24),
образует выборку из многомерного нормального распределения со средним 0 и ковариационной матрицей (8.2.12). Пусть а определяется формулой (8.2.28),
— формулой (8.2.29). Тогда каков бы ни был
-мерный вектор а, величина
распределена так же, как
Кроме того,
(8.2.31)
и при
оценка а будет асимптотически нормальной величиной, имеющей такие моменты. Матрица
не зависит от а и распределена по закону
. При
величина
имеет плотность распределения
(8.2.32)
Появляющаяся в (8.2.32) функция — это обобщенная гипергеометрическая функция, см. Abramowitz, Stegun (1964). Процентные точки и моменты
приведены в работах: Amos, Коорmans (1962), Ezekiel, Fox (l959) и Kramer (1963). Olkin, Pratt (1958) построили несмещенную оценку для
Распределения других статистик можно определить, пользуясь тем, что случайная матрица
имеет распределение
Распределение для а приводит Kshirsagar (1961). Плотность этого распределения пропорциональна
(8.2.34)
Такое распределение является разновидностью многомерного
-распределения, см. Dickey (1967).
Подобно тому как определялись частные корреляции, можно построить их оценки, основанные на элементах
Например, оценка частной корреляции величин
при отсутствии линейных изменений X имеет вид
(8.2.35)
где
обозначает элемент матрицы
стоящий на пересечении
строки и
столбца.
Эта оценка, как видно из распределения для
указанного в теореме 8.2.3, распределена как выборочный коэффициент корреляции
основанный на
наблюдениях. Функция плотности распределения квадрата этой величины определяется выражением (8.2.32), если заменить в нем
соответственно на
. Большая выборочная дисперсия такого
приблизительно равняется
Найденные в работе Fisher (1962) распределения коэффициентов корреляции можно так модифицировать, чтобы получить совместное распределение всех частных корреляций. Асимптотику совместных ковариаций можно получить, опираясь на результаты работ Pearson, Filon (1898), Hall (1927) и Hsu (1949). Дальнейшие результаты, а также приближения для законов распределения оценок квадратов коэффициентов корреляции содержатся в работах: Kendall, Stuart (1961), стр. 341, Gajjar (1967), Hodgson (1968), Alexander, Vok (1963), Giri (1965) и Gurland (1966).
Рассмотренные выше теоремы имеют аналоги для комплексных случайных векторов. Например, справедлива
Теорема 8.2.4. Пусть комплексный
-мерный вектор
(8.2.36)
со средним 0 таков, что
(8.2.37)
Если матрица невырожденна, то
, минимизирующие
таковы:
а само минимальное значение равно
(8.2.41)
Назовем а, определенный формулой (8.2.40), комплексным коэффициентом регрессии Y на X. Указанные
и а будут доставлять минимум, следовательно, и детерминанту, и следу, и диагональным элементам матрицы (8.2.39). При
выражение для минимума (8.2.41) можно записать в виде
где по определению
Эта величина, очевидно, представляет собой обобщение на комплексный случай квадрата коэффициента множественной корреляции. Поскольку минимум (8.2.41) должен лежать между и 0, то, значит,
причем значение 1 соответствует минимуму, равному 0. В ряде случаев удобно расщепить
рассматривая порознь
и
здесь
Эти выражения служат мерами линейной связи Y с
соответственно.
Вернемся теперь к случаю векторного Y. Явной мерой степени аппроксимации Y линейной функцией от X служит величина ошибки
(8.2.46)
имеющей среднее 0 и такой, что
(8.2.47)
и
(8.2.48)
Аналоги частной ковариации и частной корреляции можно немедленно получить, используя матрицу (8.2.47).
Предположим теперь, что в нашем распоряжении имеется выборка
(8.2.49)
значений вектора, удовлетворяющего условиям теоремы 8.2.4. Определим матрицы х и у формулами (8.2.25) и (8.2.26). Естественно рассмотреть статистики
(8-2-50)
и
(8.2.51)
Для них справедлива
Теорема 8.2.5. Пусть величины (8.2.49),
образуют выборку из многомерного комплексного нормального распределения со средним 0 и ковариационной матрицей (8.2.37).
Если а определяется формулой (8.2.51),
— формулой (8.2.52), то для любого
-мерного вектора а величина
распределена как Кроме того,
(8.2.54)
и при
величина
распределена асимптотически как
Далее, матрица
не зависит от a и распределена по закону
. Наконец, если
то величина
имеет плотность распределения
(8.2.55)
Отметим, что распределение
в комплексном случае совпадает с распределением в действительном случае при вдвое большем объеме выборки и одновременном увеличении размерности X вдвое. Объяснение этому обстоятельству предлагает эвристический подход, описанный в § 8.4. Полезное же следствие заключается в том, что можно будет применять таблицы и результаты, полученные для действительных величин. Плотность (8.2.55) приводится в работе Goodman (1963); см. также James (1964), формула (112), и Khatri (1965а). При
выражение (8.2.55) превращается в
и совпадает с «нулевым» распределением величины (6.2.10), выведенным при условии, что ряд X фиксирован. Поэтому процентные точки в этом случае можно получить из процентных точек
-закона, как в гл. 6. Amos, Koopmans (1962) и Groves, Hannan (1968) нашли много «ненулевых» процентных точек для
Доверительные области для элементов матрицы а можно построить по выражению (8.2.53), действуя как в § 6.2.
По аналогии с (8.2.34) плотность распределения матрицы а будет пропорциональна
(8.2.57)
Wahba (1966) нашел эту плотность в случае
Иногда представляет интерес рассмотрение следующих комплексных аналогов частных корреляций:
при 1 Естественной оценкой для (8.2.58) служит
Распределение для
приведенное в теореме 8.2.5, показывает, что последняя оценка распределена одинаково с комплексным выборочным коэффициентом корреляции величин
основанным на
наблюдениях. Квадрат модуля этой оценки имеет плотность распределения (8.2.55), в которой
заменяются на
соответственно. Асимптотические ковариации пар этих оценок можно вывести из выражения (7.6.16).