как функцию свободной переменной в, для которой наши данные служат известными и фиксированными коэффициентами. Она называется функцией правдоподобия данных [см. разделы 4.13.1, 6.2.1]. В нашем примере X — непрерывная переменная. Данные должны рассматриваться как конечные (ограниченные) приближения к бесконечным десятичным дробям, требуемым для точной записи действительных чисел, так что означает некоторое число, лежащее в интервале где — размер измерительной сетки, скажем —1 мм, для , измеряемого в миллиметрах. При малых такого порядка вероятность
может быть заменена с необходимой точностью на
Вероятность получения наблюдаемой выборки для данного значения в будет поэтому равной
Следовательно, для каждого фиксированного значения (скажем, параметра численное значение правдоподобия пропорционально и мы можем, таким образом, принять за значение правдоподобия выражение (которое определяется с точностью до умножения на константу, т. е. функцию данных, не зависящую от )
где остаются фиксированными, а — неопределенная переменная.
Между вероятностью и правдоподобием есть существенная разница: вероятностные утверждения касаются множества возможных исходов при фиксированном значении . В утверждениях о правдоподобии, напротив, значения исходов фиксированы и рассматриваются все возможные значения в. При подходящих условиях суммы вероятностей также являются вероятностями, но суммы правдоподобий не являются правдоподобиями и т. д.
Несмотря на эти различия, есть и общие свойства. Относительно большие правдоподобия соответствуют вероятным значениям в более, чем относительно малые, так как большие вероятности соответствуют сильно ожидаемым исходам более, чем малые вероятности.
Рис. 3.5.3. Функция правдоподобия из примера 3.5.4
Из двух значений называется более правдоподобным, чем в смысле большего правдоподобия нахождения вблизи истинного значения , если Значение в котором достигается максимальное значение функции правдоподобия, так что для любого является наиболее в этом смысле правдоподобным значением (для рассматриваемых данных). При применении метода максимального правдоподобия это значение (зависящее, конечно, от данных берут как оценку . Она называется оценкой максимального правдоподобия для .
На рис. 3.5.3 показан график функции правдоподобия вместе с . В этом примере величина может быть получена дифференцированием как подходящий корень уравнения правдоподобия или, что то же самое, уравнения
где задано (3.5.6). Следовательно, в нашем примере уравнение правдоподобия сбодится к
откуда
где — среднее выборки.
Приведенное описание нуждается в дополнениях. Строго говоря, в качестве функции правдоподобия следует взять , где а — произвольная положительная функция наблюдений, а определено, как в (3.5.6). Это не влияет на процедуру максимизации, поскольку для любого положительного и достигают своего максимума при одном и том же значении .
На практике при использовании метода максимального правдоподобия обычно не говорят явно об истинном значении , которое
выделяет определенное из рассматриваемого семейства плотностей заданного вида пространство параметров, в примере Вместо этого: 1) говорят (несколько вольно) о задаче оценивания параметра плотности оаспределения вероятности , имея в виду под истинное значение одновременно говорят о функции правдоподобия имея в виду под в переменную, чья область изменений — пространство параметров .
Процедура максимизации часто упрощается, если вместо функции правдоподобия использовать ее логарифм — логарифмическую функцию правдоподобия, поскольку при этом нужно дифференцировать не произведение, а сумму; достигает своего максимума при том же значении что и . (Нельзя, однако, думать, что максимум может быть найден дифференцированием в каждом случае. Контрпримеры см. в гл. 6.)
Когда (как в примере 3.5.3) уравнение правдоподобия имеет простое и ясное решение, можно исследовать выборочное распределение оценки непосредственно. Однако чаще решение може быть получено лишь в виде итеративной численной процедуры, и потому прямое изучение выборочного распределения невозможно. В соответствии с общей теорией [см. гл. 6] для подобных случаев возможны простые и эффективные аппроксимации.
Этот метод также применим при нескольких параметрах и когда наблюдения не обязательно независимы и одинаково распределены [см. гл. 6].