Глава 4. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Наряду с основными понятиями теории вероятностей, введенными в гл. 3, при измерении и анализе случайных данных для определения их достоверности и оценки возможных ошибок используются статистические методы. В этой главе даются обзор и примеры использования основных статистических понятий, широко применяемых во многих задачах анализа данных. Цель главы — дать читателю минимум основных сведений по терминологии и некоторым методам инженерной статистики, существенных для понимания последующих глав. Более детальное изложение прикладной статистики и ее инженерных применений можно найти в книгах [4.1-4.4].
4.1. Выборочные значения и оценивание параметров
Рассмотрим случайную величинух в смысле определения разд. 3.1; аргумент к, указывающий на принадлежность к исходному выборочному пространству, опущен для упрощения обозначений. Рассмотрим далее две основные характеристики случайной величины х, описывающие ее центр рассеяния и величину рассеяния, а именно среднее значение и дисперсию. Согласно формулам (3.8) и (3.11), среднее значение и дисперсия равны
где плотность вероятности случайной величины х. На практике, разумеется, эти две характеристики величины х нельзя определить точно, поскольку обычно плотность вероятности полностью не известна. Поэтому приходится довольствоваться оценками среднего значения и дисперсии, полученными по конечному числу наблюдений.
Один из возможных методов (есть и другие) оценивания среднего значения и дисперсии случайной величины х по независимым наблюдениям таков:
Здесь х и — выборочное среднее и выборочная дисперсия соответственно. Знак над и указывают на то, что эти выборочные значения
используются в качестве оценок среднего значения и дисперсии х. Подстрочный индекс в 5 означает, что это смещенная оценка дисперсии (определение будет дано ниже). Число наблюдений, по которым вычисляются оценки (выборочные значения), называется размером выборки.
Оценки, введенные формулами (4.3) и (4.4), не являются единственно возможными оценками среднего значения и дисперсии случайной величины х. Например, впрлне разумные оценки среднего и дисперсии можно получить, если деление сумм в формулах (4.3) и (4.4) заменить делением на Об оценках никогда нельзя определенно сказать, что они верны или неверны, поскольку они задаются в некотором смысле произвольно. Тем не менее некоторые оценки можно считать “хорошими” или “лучшими” по сравнению с другими.
Для установления качества или “правильности” оценки используются три основных свойства. Во-первых, желательно, чтобы математическое ожидание оценки равнялось оцениваемому параметру, т. е.
где оценка параметра Если это свойство имеет место, то оценка называется несмещенной. Во-вторых, желательно, чтобы среднеквадратичная ошибка данной оценки была наименьшей среди всех возможных оценок,
исследуемая оценка, а любая другая оценка. Если это свойство имеет место, то оценка называется эффективной. В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, т. е. для любого
Если это так, то оценка называется состоятельной. Из неравенства Чебышева (3.22) следует, что достаточным (но не необходимым) для выполнения (4.7а) является условие
Заметим, что условия, задаваемые соотношениями (4.7), представляют собой определения сходимости по вероятности (а) и среднеквадратичной сходимости (б), которые будут даны в разд. 5.3.4.
В качестве примера рассмотрим оценку среднего значения по формуле (4.3). Математическое ожидание выборочного среднегол: равно
Следовательно, согласно определению (4.5), оценка несмещенная. Среднеквадратичная ошибка выборочного среднегол: равна
Поскольку наблюдения независимы, то в силу результатов разд. 3.2.1 математические ожидания членов, содержащих смешанные произведения, равны нулю. Поэтому
Следовательно, согласно определению (4.76), оценка состоятельна. Можно также показать, что эта оценка эффективна.
Рассмотрим теперь оценку дисперсии, задаваемую формулой (4.4). Математическое ожидание оценки дисперсии равно
Однако
Поскольку то
Следовательно, оценка смещена. Хотя выборочная дисперсия и является смещенной оценкой, эта оценка состоятельна и эффективна.
Из формулы (4.11) понятно, что для получения несмещенной оценки следует взять несколько видоизмененную выборочную дисперсию:
Величина, определенная формулой (4.12), представляет собой несмещенную оценку По этой причине выборочная дисперсия из формулы (4.12) часто считается “лучшей” оценкой по сравнению с выборочной дисперсией из формулы (4.4). В дальнейшем в качестве оценки дисперсии случайной величины будет использоваться выборочная дисперсия вида (4.12).