11.3. Проверка независимости и стационарности ряда наблюдений
Перед тем как подвергнуть результаты наблюдений соответствующей статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку, являются стохастически независимыми (альтернативами здесь могут быть пристрастный выбор, зависимость результатов наблюдения от порядкового номера наблюдения, например по мере роста порядкового номера наблюдения среднее исследуемого распределения испытывает какие-либо смещения монотонного или циклического характера, и т. д.).
11.3.1. Критерий серий, основанный на медиане выборки.
Пусть имеется выборка некоторой генеральной совокупности. Расположим элементы выборки в порядке возрастания в вариационный ряд .
В качестве выборочного значения медианы , как известно (см. гл. 8), берется средний (по расположению) элемент вариационного ряда, т. е.
Затем возвращаемся к исходной выборке и будем вместо каждого ставить плюс, если , и минус, если (члены выборки, равные ) в полученной таким образом последовательности плюсов и минусов, опускаются). Полученная нами последовательность плюсов и минусов характеризуется общим числом серий и протяженностью самой длинной серии Под «серией» понимается последовательность подряд идущих плюсов или подряд идущих минусов (в частном случае серия может состоять только из одного плюса или только из одного минуса и тогда ее протяженность равна единице). Очевидно, что если наблюдения стохастически независимы (выборка случайна} то чередование плюсов и минусов в последовательности должно быть более или менее «случайным», т. е. эта последовательность не должна содержать слишком длинных серий подряд идущих плюсов или подряд идущих минусов, и соответственно общее число серий ) не должно быть слишком малым. Так что в данном критерии целесообразно рассматривать одновременно пару критических статистик
Для построения точного статистического критерия независимости, основанного на двумерной статистике нужно было бы предварительно вывести и затабулировать двумерный закон распределения этой статистики. Мы ограничимся здесь изложением приближенного критерия.
Для его построения мы воспользуемся: —нормальным приближением одномерного (частного) распределения случайной величины пауссоновским (см. п. 6.1.3) (с параметром ) распределением числа серий с длиной, большей или равной (см. [6, с. ); и, наконец, оценками сверху и снизу для вероятности
где -ная точка частного распределения -ная точка частного распределения
В конечном счете приходим к следующему правилу. Если хотя бы одно из неравенств
(11.64)
окажется нарушенным, то гипотеза о стохастической независимости исходных результатов наблюдения отвергается с вероятностью ошибки, заключенной между 0,05 и 0,0975 (т. е. ).
Пример 11.5. Имеются результаты испытаний на долговечность 58 образцов, отобранных из текущей продукции: . (Подчеркнуты те выборочные данные, на месте которых в соответствующей последовательности знаков стояли бы плюсы).
Ряд факторов, от которых существенно зависит качество образцов (сырье, квалификация персонала, сменность и т. п.), подвержен неизбежным колебаниям, характер которых может быть как случайным, так и систематическим. Нас будет интересовать, было ли это должным образом учтено при назначении способа отбора образцов, т. е. производился ли отбор так, чтобы результаты наблюдений были бы стохастически независимыми, образовывали бы случайную выборку? Так, характер изменения выборочных данных во времени (порядок отбора образцов из текущей продукции во времени определяется в нашем примере движением по строкам слева направо) наводит на мысль, что имела место некоторая систематическая тенденция к снижению долговечности. Ответить на вопрос, являются ли наши сомнения достаточно обоснованными, нам поможет только что описанный критерий серий.
Необходимые подсчеты дают: .
Так что из двух неравенств (11.64) лишь одно (первое) оказалось выполненным. Поэтому приходится признать, что случайное перемешивание образцов в генеральной совокупности перед их извлечением оттуда не было вполне удовлетворительным, и соответственно результаты наблюдений, представленные выше, не являются стохастически независимыми.