1.6. Определение энтропии непрерывной случайной величины
До сих пор предполагалось, что случайная величина
, энтропия
которой изучалась, может принимать значения из некоторого дискретного пространства, состоящего из конечного или счетного числа элементов, например, сообщений, символов и т. п. Между тем в технике большое распространение имеют также непрерывные величины, т. е. величины (скалярные или векторные), которые могут принимать значения из непрерывного пространства X,
чаще всего пространства действительных чисел. При этом случайная величина
описывается плотностью распределения вероятностей
задающей вероятность
попадания
в область
указанного пространства X, имеющую объем
дифференциал объема).
Как определить энтропию
такой случайной величины? Один из возможных формальных путей таков. В формуле
пригодной для дискретной величины, вероятности
под знаком логарифма формально заменяются на плотность вероятности и берется, следовательно, выражение
Такой способ определения энтропии не очень обоснован. Остается неясным, как определять энтропию в комбинированном случае, когда в непрерывном пространстве, кроме непрерывного распределения, имеется еще концентрация вероятности в отдельных точках, т. е. плотность вероятности содержит еще дельта-образные особенности. Энтропия (1.6.2) обладает также тем недостатком, что является неинвариантной, т. е. меняется при невырожденном преобразовании переменных
в отличие от энтропии (1.6.1), которая при этом остается инвариантной.
Поэтому целесообразно дать несколько другое определение энтропии непрерывной случайной величины. Подойдем к этому определению исходя из формулы (1.6.1). Будем предполагать, что
дискретная случайная величина, вероятности которой сосредоточены в точках
непрерывного пространства X:
Это означает, что плотность распределения имеет вид
Используя формулу (1.6.1), в этом случае имеем
Пусть далее точки
расположены в пространстве X довольно плотно, так что даже в сравнительно малой области
имеющей объем
располагается довольно большое число
их. Область
предполагается малой в том смысле, что внутри ее вероятности
приблизительно равны
Тогда для суммы по точкам, лежащим внутри
будем иметь
Суммируя по всем таким областям
увидим, что энтропия (1.6.4) запишется в виде
Если ввести меру
указывающую плотность точек А и интегрированием которой вычисляется число точек
внутри любой области
то энтропию (1.6.4) можно записать
Плотности распределения (1.6.3), очевидно, соответствует дельтаобразная плотность
вида
От этих дельта-образных плотностей можно перейти к сглаженным плотностям
При этом, если «радиус сглаживания»
соответствующий ширине функции
относительно невелик (нужно, чтобы на таких расстояниях вероятности
не успевали существенно измениться), то сглаживание мало повлияет на отношение плотностей:
Поэтому из (1.6.6) будем иметь
Эту формулу можно получить также из (1.6.5), так как
когда «радиус»
много меньше размеров областей
Но если «радиус сглаживания»
значительно превосходит среднее расстояние между точками
то сглаженные функции (1.6.7) будут иметь простой (гладкий) вид, который предполагался, скажем, в формуле (1.6.2).
Отбросив значки
в (1.6.8) у обеих плотностей, мы, следовательно, получим в качестве формулы, определяющей энтропию
вместо (1.6.2) формулу
Здесь
некоторая вспомогательная плотность, которая предполагается заданной. Она необязательно нормирована на единицу. Более того, в соответствии с приведенной выше интерпретацией энтропии (1.6.9) как частного случая энтропии (1.6.1) нормировочный интеграл
предполагается достаточно большим числом
, интерпретируемым как общее число дискретных точек
в которых сконцентрированы вероятности
Такая интерпретация, однако, необязательна, и можно, в частности, брать
Если ввести нормированную плотность
(что можно сделать, когда
конечно), то, очевидно, из формулы (1.6.9) будем иметь
Определение (1.6.9) энтропии
может быть обобщено и на комбинированный случай, и на общий случай абстрактной случайной величины. Последняя считается заданной, если фиксировано некоторое пространство X точек 1 и борелевское поле
(
-алгебра) его подмножеств. При этом говорят, что задано измеримое пространство (
На этом поле далее определена вероятностная мера
т. е. такая мера, что
Для определения энтропии мы требуем, чтобы на измеримом пространстве (
была задана также вспомогательная мера
такая, что мере Р абсолютно непрерывна относительно
Мера Р называется абсолютно непрерывной относительно меры
если для каждого множества
из
для которого
имеет место равенство
Согласно известной теореме Радона — Никодима из условия абсолютной непрерывности меры Р
относительно меры
вытекает существование
-измеримой функции
обозначаемой
и называемой производной Радона-Никодима, которая обобщает понятие плотности распределения. Она определена для всех точек пространства X, за исключением, может быть, некоторого подмножества А, для которого
а значит и
Итак, если условие абсолютной непрерывности выполнено, то энтропия
определяется при помощи производной Радона-Никодима по формуле
Подмножество
для которого функция
не определена, не влияет на результат интегрирования, так как ему соответствуют нулевые меры
Также несущественным является то подмножество
в котором функция
определена, но равна нулю, так как для него
даже если
Поэтому некоторая неопределенность функции
и бесконечные значения
в точках, где
не мешают определению (1.6.13) энтропии
в случае абсолютной непрерывности Р относительно
Величина
при этом играет роль случайной энтропии, аналогичной случайной энтропии (1.2.2). Она определена почти всюду в X, т. е. во всем пространстве, за исключением, может быть, множества
нулевой вероятности Р.
По аналогии с (1.6.11), если
можно ввести вместо
нормированную, т. е. вероятностную меру
и преобразовать (1.6.13) к виду
аналогичному (1.6.12). Величина
является неотрицательной. Это утверждение аналогично теореме 1.5 и может быть доказано тем же способом. Вследствие указанной неотрицательности величину (1.6.17) можно называть энтропией
распределения Вероятности Р относительно распределения вероятности
Данное в настоящем параграфе определение энтропии (1.6.9), (1.6.13) позволяет рассматривать энтропию (1.6.2) как частный случай этого общего определения. Именно формула (1.6.2) есть энтропия (1.6.13) для того случая, когда мере
соответствует равномерная единичная плотность
Нужно отметить, что энтропия (1.6.17) вероятностной меры Р относительно вероятностной меры
может быть использована как показатель степени различия мер
(по данному поводу см. книгу Кульбака [1]). Этому благоприятствует то обстоятельство, что она обращается в нуль для совпадающих мер
и положительна для несовпадающих.
Другим показателем различия мер, обладающим этими же свойствами, может служить «расстояние», определяемое формулой
причем
Произведя разложение функции
по
нетрудно убедиться, что эта метрика может быть задана также эквивалентной формулой
Соединим точки
«линией» — семейством точек
зависящих от параметра
так, что
Тогда (1.6.18) можно записать
где в силу (1.6.20)
Здесь и ниже предполагаются выполненными условия дифференцируемости. Из (1.6.22) вытекает, что
В самом деле, разность этих выражений
равна нулю вследствие того, что тождественно исчезает выражение
Из указанного определения видно, что при сближении точек
энтропии
и величина
перестают различаться. Можно сформулировать, однако, теорему, связывающую указанные величины не только в случае близких точек.
Теорема 1.14. Квадрат «расстояния» (1.6.18) ограничен сверху суммой энтропии:
Доказательство. Соединим точки
линией
Для нее получаем
Следовательно, в силу (1.6.23)
также
Далее нетрудно убедиться, что выражение (1.6.17) можно записать в такой интегральной форме
Здесь учтено, что
при
Принимая во внимание (1.6.26), отсюда находим
Аналогичным образом, меняя местами
при неизменной соединительной линии (1.6.25), получаем
Сложим (1.6.28), (1.6.27) и применим неравенство Коши-Шварца:
Это дает
а, следовательно, и (1.6.24), если учесть (1.6.21). Доказательство закончено.