МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
— раздел математики, изучающий методы обработки и классификации статистических данных для получения на их основании обоснованных выводов. Простейшим примером статистических данных является последовательность конечного числа наблюдений некоторой случайной величины, напр., последовательности результатов взвешивания некоторого тела на аналитических весах, последовательность числа распадов радиоактивного вещества в течение каждого из 100 одинаковых промежутков времени и др. Такие статистические данные являются результатом подсчетов иди измерений и представляют собой наборы чисел. Такие данные наз. дискретными. Другой тип статистических данных — непрерывные данные, напр., записи колебаний напряжения на выходе приемника в некотором промежутке времени, записи колебаний земной коры и т. п. По определению одного из основателей М. с. англ. ученого Р. А. Фишера М. с. можно рассматривать как учение о методах приведения данных к компактной форме. Это означает, что М. с. дает методы замены мало пригодного для получения сведений о случайной величине набора наблюденных значений небольшим к-вом чисел, содержащих как можно больше нужных сведений о случайной величине. М. с. широко используется в исследованиях с демографии, эконом, науках, в с. х-ве, биологии, медицине, геологии, физ. науках, лингвистике, психологии и т. д. Основой М. с. является вероятностей теория. Однако, если задачей теории вероятностей является разработка методов определения вероятностей некоторых событий по заданным вероятностям др. событий, то задачей М. с. является построение методов оценки вероятностей событий или принятий решений о характере событий на основе статистических данных. При теор. анализе предполагается, что статистические данные являются случайными величинами. Это предположение дает возможность использовать методы теории вероятностей и обусловливает вероятностный характер выводов.
Необходимость в привлечении М. с. возникает в том случае, когда нужно получить сведения о характеристиках некоторой случайной величины на основании
ее значений, наблюденных в эксперименте
Пусть F (х) - ф-ция распределения вероятностей (ф. р. в.) действительной случайной величины
Мн-во значений случайной величины
с ф-цией F (х) наз. генеральной совокупностью (часто просто совокупностью), имеющей ф-цию распределения
F (x). Наблюденные значения
величины
выборочными значениями или выборкой из совокупности с ф-цией распределения
Число выборочных значений
наз. объемом выборки. Обычно предполагается также, что наблюдения
независимы, т. е. что величина
не оказывает влияния на остальные наблюдения. В совр. М. с. исходным пунктом теор. анализа является следующее допущение: выборка объема
из совокупности с ф-цией распределения
есть
-мерная случайная величина
с совместной ф. р. в.
Выборка объема
наз. также выборкой объема
независимых наблюдений в отличие от случая связанных наблюдений, с которым имеет дело статистика случайных процессов.
Одной из осн. задач М. с. является прибл. построение распределений параметров положения и мер рассеяния случайной величины. Полное описание случайной величины
дает ее
Поэтому естественно попытаться, основываясь на выборке
сделать заключение о том, какой является ф. р. в. р. Если рассматриваемая случайная величина дискретна, т. е. принимает только значения
то первое представление о неизвестном распределении получают, построив эмпирическое распределение и сравнив его с некоторым из известных дискретных распределений. Эмпирическое распределение в данном случае — это набор точек плоскости с координатами
, где
наблюдений в выборке
равных
от 0 не более
значений
). Чаще всего из дискретных распределений употребляются биномиальное распределение, Пуассона распределение и гипергеометрическое распределение. В ряде случаев простые предположения о рассматриваемом эксперименте позволяют сделать определенный вывод о распределении. Напр., если
есть числа вызовова поступивших на телефонную станцию за
равных промежутков времени, то иногда можно предполагать, что интенсивность поступления вызовов остается неизменной, что число вызовов, поступивших за данный промежуток, не влияет на число вызовов, поступивших за промежуток времени, не перекрывающийся с первым, и что за конечный промежуток времени может поступить конечное число вызовов. Если эти допущения верны, то неизвестное распределение случайной величины является распределением Пуассона. Это распределение используется в ряде физ. задач, таких, как описание числа частиц, зарегистрированных счетчиком Гейгера за единицу времени, описание числа бактерий некоторой колонии, находящихся в заданной области простр., числа происшествий за данный период времени и т. п.
Биномиальное распределение используется в задачах генетики, контроле произ-ва и т. п. Для непрерывной случайной величины хорошее представление о неизвестной плотности распределения вероятностей при достаточно большом объеме выборки дает гистограмма. Сравнивая гистограмму с одним из известных непрерывных распределений, делают первое заключение о неизвестной плотности распределения вероятностей. Важными примерами непрерывных распределений являются нормальное распределение с плотностью распределения вероятностей
значение,
дисперсия распределения) и сосредоточенное на положительной полуоси показательное распределение с плотностью распределения вероятностей
значение распределения,
. В некоторых случаях из общих предположений относительно условий эксперимента можно сделать определенный вывод о неизвестном распределении. Напр., в теории погр. измерений исходят из того, что погрешности измерений являются результатом сложения большого числа незначительных независимых «элементарных погрешностей». Если принять это допущение, то центральная предельная теорема теории вероятностей гарантирует близость распределения ошибок к нормальному распределению. Соображения, основанные на центр, предельной теореме, справедливы и во многих др. случаях; этим частично объясняется важная роль нормального распределения в статистике. Из др. причин, по которым нормальное распределение употребляется очень часто, назовем такие: с помощью нормального распределения получают хорошие приближения к распределениям, не являющимся нормальными; некоторые распределения после преобразований либо становятся нормальными, либо хорошо приближаются нормальными; некоторые распределения хорошо приближаются к нормальным при больших или малых значениях параметров. Нормальное распределение постоянно встречается во многих областях использования М. с. Показательное распределение используют в тех случаях, когда случайную величину можно рассматривать как время жизни, время ожидания, время исправной работы и т. п. Осн. допущением, приводящим к показательному распределению, является «отсутствие последействия»: если
есть время жизни, то это допущение равносильно тому, что при любом возрасте время оставшейся жизни не зависит от прошлого и имеет то же распределение, что и время жизни в начальный момент. Важные приложения показательное распределение имеет в теории надежности.
Подбор распределения, соответствующего эмпирическому распределению или гистограмме, составляет первый этап статистической обработки. Содержанием второго этапа является ответ на вопрос: насколько хорошо соответствует предполагаемое (гипотетическое) распределение выборочным данным. Обоснованный ответ на этот и др. подобные вопросы дает глава М. с. — теория проверки статистических гипотез (см. Статистическая проверка гипотез, Эмпирическая функция распределения).
Часто бывает удобно описывать ф-цию распределения вероятностей с помощью моментов. Для случайной величины с плотностью вероятности
моменты и центр, моменты (если они существуют) определяются как
и
соответственно. В качестве оценок
по выборке
используют выборочные моменты
свойствах выборочных моментов см. Статистические оценки).
Для многих практических задач (особенно при предварительном исследовании) достаточно знать простейшие характеристики случайной величины
Такими характеристиками являются параметр положения и мера рассеяния. Параметром положения является среднее значение (или математическое ожидание)
величины
Оценкой по выборке
для параметра
является выборочное среднееа;
Другой параметр положения — медиана величины Медиана
случайной величины
это такое число
, для которого
Оценкой медианы является средний член вариационного ряда при нечетном
или полусумма двух средних членов вариационного ряда при
четном. Если распределение симметрично (т. е. если
) при каждом х и некотором и), то среднее и медиана совпадают. Следует отметить, что в случае симметричных распределений оценка среднего с помощью выборочной медианы обладает малой эффективностью. Для получения нужной точности в оценке среднего нормального распределения с помощью медианы нужно примерно на 64% больше наблюдений, чем для получения той же точности с помощью
Простейшей мерой рассеяния случайной величины является среднее квадратичное отклонение
корень из дисперсии случайной величины. Оценкой среднего квадратичного отклонения по выборке
является величина s, где
На практике часто используются следующие свойства
и s. Если
достаточно велико, то в интервале
расположено около 2/3 всех наблюдений, а в интервале
около
случайные величины, причем среднее величины
равно неизвестному среднему, дисперсия
равна
дисперсия величины
среднее s равно
Важнейшей задачей М. с. является построение оценок неизвестных параметров. Во многих случаях можно обосновать принадлежность неизвестного распределения случайной величины к некоторому семейству ф. р. в., зависящих от конечного числа параметров, напр., установить, что распределение является нормальным (в этом случае неизвестных параметров два — среднее значение и дисперсия). Возникает задача построения по выборочным данным наилучших возможных оценок для неизвестных параметров. Методам нахождения оценок, изучению их свойств и сравнению различных оценок, описанию семейств распределения вероятностей, допускающих хорошие оценки, посвящен важный раздел М.
теория оценок. В этой теории различают точечные оценки и интервальные оценки. Точечная оценка — ф-ция наблюдений
случайной величины, по которой судят о значении неизвестного параметра. Интервальная оценка — интервал с концами, зависящими от выборочных значений, содержащий с заранее определенной вероятностью значение неизвестного параметра (см. Доверительный интервал для параметра
соответствующий доверительному уровню
, Доверительная область). Теория оценок неизвестных параметров связана с теорией проверки гипотез. Мерой качества рассматриваемых оценок является обычно среднее квадратичное отклонение. В наст, время используют и др. меры качества. Большое значение для получения точных выводов относительно оценок имеет отыскание точного распределения оценок или описание приближений к некоторым хорошо известным распределениям (напр., нормальному) при большом объеме выборки. Точное распределение оценок в пригодном для применения виде удается получить редко; в удобной форме получено распределение опенок параметров нормального распределения.
Методы регрессии и корреляции часто используются в М. с. при решении задач, в которых рассматриваются совместно несколько случайных величин. Если случайные величины связаны, то возникает задача описания зависимости, напр., с целью оценки значений одной величины по наблюдениям другой. Под зависимостью случайных величин понимается вероятностная зависимость — задание одной величины влияет на значение другой, но не определяет ее полностью (т. е. оставляет случайной величиной). Примерами такой зависимости является связь роста ребенка и его возраста, роста отца и роста сына, роста и веса человека и т. п. Построение методов описания такого типа зависимостей, определение этих зависимостей по результатам экспериментов составляет содержание регрессионного анализа. Полезной мерой связи между случайными величинами
является коэфф. корреляции
где
средние значения и дисперсии величин
. В том случае, когда
величины
линейно зависимы, т. е.
(
и b — постоянные числа); если
то величины
некоррелированными (для совместно нормально распределенных
некоррелированность эквивалентна статистической независимости). Оценкой неизвестного коэфф. корреляции
по
парам наблюдений
величин
является выборочный коэфф. корреляции
где
В ряде задач важно решить, равно ли 0 значение р. Для проверки этой гипотезы по выборочным данным построены спец. критерии. Из спец. методов М. с. следует отметить дисперсионный анализ, методы планирования экспериментов, теорию последовательного анализа.
Исторически первыми серьезными работами, относящимися к М. с., являются исследования швейцарского математика Я. Бернулли (1711 г., о применении теоретиковероятностного подхода к вопросам экономики) и исследование франц. математика П. Лапласа (18 в., первые применения М. с. в астрономии). Ряд применений теоретиковероятностных методов к демографии и страховому делу дал рус. математик В. Я. Буняковский (19 в.). Нем. математик К. Ф. Гаусс (1777—1855) разработал теорию погр. и дал ее применение к астрономии, а также предложил наименьших квадратов метод, широко употребляемый в М. с. (19 в.). Ряд важных исследований, относящихся к методу наименьших квадратов и свойствам получаемых при этом оценок, провел рус. математик А. А. Марков (1856—1922). Общую технику статистических исследований применительно к социальным наукам дали в 19 в. англ. ученый Ф. Галтон и бельгийский математик и статистик А. Кетле. Важный вклад в М. с. внес англ. математик К. Пирсон (конец 19 — начало 20 вв.). Ему принадлежат распределения Пирсона, метод моментов, критерий
и ряд других методов и понятий М. с., статистические таблицы и конкретные приложения М. с. в ряде областей науки. Ряд важных совр. понятий и методов М. с. предложил англ. математик и статистик Р. А. Фишер (метод максимума правдоподобия, дисперсионный анализ и понятия состоятельности, достаточности, эффективности и др.). Работы Р. А. Фишера оказали большое влияние на развитие совр. методов М. с. Ряд новых идей М. с., интенсивно разрабатываемых и широко используемых в настоящее время, предложили англ. математики Стьюдент (псевдоним В. Госсета), Э. Пирсон и амер. математики Ю. Нейман и А. Вальд. В СССР важные результаты в области М. с. получили В. И. Романовский, Е. Е. Слуцкий, А. Н. Колмогоров, Н. В. Смирнов, Б. В. Гнеденко, Ю. В. Линник и И. И. Гихман. Полный обзор работ советских ученых в области М. с. можно найти в книгах: «Математика в СССР за тридцать лет. 1917 -1947» (М. - Л., 1948); «Математика в СССР за сорок лет. 1917—1957» (т. 1—2. М., 1959); «Математика в СССР. 1958—1967», т. 2, в. 1—2. М., 1969—70). М. с. вместе с теорией вероятности является осн. матем. аппаратом кибернетики при описании недетерминированных (стохастических) систем; она применяется при оценке и планировании надежности сложных систем, при построении с помощы» эмпирических данных моделей различных процессов поведения и управления, а также в теории стохастических автоматов и т. п.
Лит.: Крамер Г. Математические методы статистики. Пер. с англ. М., 1948 [библиогр. с. 612—620]; Уилкс С. Математическая статистика. Пер. с англ. М., 1967 [библиогр. с. 601—619].
А. Я. Дороговцев.