5.4. Выпуклость средней взаимной информации
В этом разделе мы рассмотрим важное свойство средней взаимной информации между входными и выходными символами, которое нам понадобится для вычисления (в следующем разделе) пропускной способности произвольного дискретного постоянного канала.
Для любого заданного дискретного постоянного канала средняя взаимная информация между входными и выходными символами есть функция распределения вероятностей на входе
Пусть
суть
разных распределений вероятностей и
множество
неотрицательных чисел, удовлетворяющих условию
Линейная комбинация
также может служить распределением вероятностей, поскольку
и
Каждому распределению вероятностей
соответствует распределение вероятностей на выходном пространстве
определяемое из соотношения
Для распределения вероятностей
образованного из распределений вероятностей согласно равенству (5.31), получаем
Средняя взаимная информация между входными и выходными символами, соответствующая распределению вероятностей на входе
выражается как
где
Средняя взаимная информация
соответствующая
определяется из аналогичных выражений с заменой индекса
на 0.
Теорема. Для любого множества
неотрицательных чисел
удовлетворяющих равенству (5.29).
Доказательство. Из равенства (5.35) имеем
С другой стороны, из выражений (5.30) и. (5.37) получаем
Откуда следует, что
Теперь, с помощью выражений (5.34) и (5.36) разложим правую часть равенства (5.41)
Далее, используя неравенство [см. (2.91)]
получаем
и, следовательно [см. (5.41)],
Ч. Т. Д.
Теорема. Для любого множества
неотрицательных чисел
удовлетворяющих равенству (5.29),
где
Доказательство. Представим логарифм в правой части выражения (5.42) в следующем виде:
Сумма в правой части этого выражения больше или равна 1, так как каждый член ее неотрицателен, а член при
равен 1. Поэтому логарифм неотрицателен и
Далее, с помощью этого неравенства из выражений (5.41) и (5.42) получаем
Ч. Т. Д.
Первой из этих двух теорем можно дать следующее полезное геометрическое истолкование. Любое распределение вероятностей на входе
можно представить точкой в евклидовом пространстве, рассматривая вероятности отдельных символов
как декартовы координаты этой точки. Так как
то точки, представляющие возможные распределения вероятностей, должны лежать на гиперплоскости размерности
определяемой этим линейным уравнением. Точнее, поскольку вероятности не могут иметь отрицательные значения, то эти точки будут располагаться в области этой гиперплоскости, ограниченной ее пересечениями с
гиперплоскостями
Например, в случае троичного входного алфавита, геометрическим местом точек, представляющих возможные распределения вероятностей, будет равносторонний треугольник, образованный тремя прямыми, соединяющими точки с координатами
на декартовых координатных осях.
Значение средней взаимной информации
для любого данного распределения
можно отложить на соответствующей нормали к геометрическому месту точек, представляющих возможные распределения вероятностей, образуя тем самым гиперповерхность размерности
Пусть
два распределения вероятностей. Рассмотрим пересечение этой гиперповерхности с двумерной плоскостью, нормальной к геометрическому месту точек возможных распределений и проходящей через точки
как показано на рис. 5.3. Каждая точка отрезка прямой между
представляет собой распределение вероятностей
где
Линия пересечения поверхности
такой плоскостью (след поверхности) между точками
определяет соответствующее значение средней взаимной информации
а отрезок прямой между теми же двумя точками есть график линейной комбинации
.
Теорема, в которой было доказано неравенство (5.38), утверждает, что след поверхности
между точками
(см. рис. 5.3) должен находиться выше отрезка прямой, соединяющей эти две точки, или лежать на этом отрезке. Поскольку
любое распределение вероятностей, то любой сегмент линии пересечения поверхности
плоскостью, нормальной к геометрическому месту
должен либо лежать выше отрезка прямой, соединяющей концы этого сегмента, либо совпадать с ним. Это означает, что гиперповерхность
выпукла вверх. Поэтому и говорят, что средняя взаимная информация между входными символами является выпуклой функцией от распределения вероятностей на входе.
Рис. 5.3. Иллюстрация выпуклости средней взаимной информации.
Теорема. Средняя взаимная информация
между входными и выходными символами дискретного постоянного канала, рассматриваемая как функция вероятностей входных символов, не может иметь относительного минимума или седловых точек. Если имеются несколько относительных максимумов, то для всех этих максимумов, а так же для всех распределений, являющихся линейными комбинациями [с неотрицательными коэффициентами, удовлетворяющими выражению (5.29)] распределений вероятностей на входе, соответствующих этим максимумам, значение средней взаимной информации одно и то же.
Доказательство. Предположим, что для некоторого распределения вероятностей входных символов
средняя взаимная информация
имеет относительный максимум, или относительный минимум, или седловую точку со значением
При этом если
является относительным максимумом, то он меньше наибольшего значения
Тогда
[должно существовать распределение вероятностей
при котором средняя взаимная информация
будет больше, чем
Пусть
- средняя взаимная информация, соответствующая распределению вероятностей
определяемому выражениями (5.53) и (5.54). Имеем
С другой стороны,
так как, по предположению,
имеет или максимум, или минимум, или седловую точку в
Отсюда следует, что
не может удовлетворять выражению (5.38) в окрестности
а тем самым исключается возможность существования относительного минимума, седловых точек и значений
больших, чем значения любого относительного максимума.
Приведенные выше соображения исключают существование нескольких относительных максимумов с различными значениями. Если имеется
относительных максимумов с одним и тем же значением
соответствующих распределениям вероятностей
то неравенство (5.38) в сочетании с приведенными выше доводами приводит к выводу, что средняя взаимная информация
соответствующая семейству распределений вероятностей
определяемых выражениями (5.29) и (5.30), должна быть равна
для всех множеств неотрицательных чисел
удовлетворяющих равенству (5.29). Ч. Т. Д.