6. Выбор, неопределенность и энтропия
Дискретный источник информации был представлен как марковский процесс. Можно ли определить величину, которая будет измерять в некотором смысле, как много информации создается таким процессом, или, лучше, с какой скоростью она создается?
Предположим, что имеется некоторое множество возможных событий, вероятности осуществления которых суть
Эти вероятности известны, но это — все, что нам известно относительно того, какое событие произойдет. Можно ли найти меру того, насколько велик «выбор» из такого набора событий или сколь неопределенен для нас его исход?
Если имеется такая мера, скажем
то разумно потребовать, чтобы она обладала следующими свойствами:
1. Н должна быть непрерывной относительно
2. Если все
равны,
то Н должна быть монотонно возрастающей функцией от
. В случае равновероятных событий имеется больше возможностей выбора или неопределенности, чем в случае, когда имеются разновероятные события.
3. Если бы выбор распадался на два последовательных выбора, то первоначальная Н должна была бы быть взвешенной суммой индивидуальных значений Н. Смысл этого иллюстрируется рис. 6.
Рис. 6. Выбор из трех возможностей.
Слева имеются три возможности
Справа производится выбор между двумя возможностями, причем каждая имеет вероятность 1/2, и в случае осуществления второй возможности производится еще один выбор между двумя возможностями с вероятностями 2/3; 1/3. Окончательные результаты имеют те же самые вероятности, как и прежде. Потребуем в этом конкретном случае, чтобы
Коэффициент 1/2 является весовым множителем, введенным из-за того, что второй выбор осуществляется только в половине всех случаев.
В приложении 2 устанавливается следующее.
Теорема 2. Существует единственная функция Я, удовлетворяющая трем перечисленным выше свойствам. При этом Н имеет вид
где К — некоторая положительная константа.
Эта теорема и допущения, требуемые для ее доказательства, не являются необходимыми для настоящей теории. Они приводятся главным образом с тем, чтобы обосновать целесообразность
которых из дальнейших определений. Действительное же оправдание этих определений заключается в том, что из них проистекает.
Величины вида
(постоянная К определяет просто выбор единицы измерения) играют центральную роль в теории информации в качестве меры количества информации, возможности выбора и неопределенности.
Рис. 7. Энтропия в случае двух возможностей с вероятностями
Форма величины Н оказывается такой же, как и форма энтропии, определяемой в статистической механике, где
— вероятность того, что система находится в ячейке
фазового пространства. Величина Н в таком виде встречается, например, в знаменитой теореме Больцмана. Назовем величину Н — энтропией множества вероятностей
Если х — случайная величина, то мы обозначим ее энтропию через
таким образом, х - не аргумент
функции, а лишь знак, отличающий ее, скажем, от
энтропии случайной величины у.
На рис. 7 представлена энтропия для случая двух исходов с вероятностями
в виде функции от
а именно:
Величина Н обладает рядом интересных свойств, которые также подтверждают, что она является разумной количественной мерой возможности выбора или мерой количества информации.
1.
тогда и только тогда, когда все вероятности
кроме одной, равны нулю, а эта единственная вероятность равна единице. Таким образом, Н равна нулю только в случае полной определенности исхода опыта. В противном случае Н положительна.
2. При заданном
величина Н максимальна и равна
когда все
равны (следовательно,
). То, что в этом случае неопределенность будет наибольшей, чувствуется также и интуитивно.
3. Пусть имеются два события
исходами для первого и
исходами для второго. Пусть
означает вероятность совместного осуществления исхода
для
для у. Энтропия совместного события равна
в то время как
Легко показать, что
причем равенство имеет место только в том случае, когда события независимы [т. е.
Неопределенность совместного события меньше или равна сумме неопределенностей отдельных событий.
4. Всякое изменение вероятностей
в сторону их выравнивания увеличивает Н. Так, если
и увеличивать
уменьшая одновременно
на такую же величину, так что
приближаются друг к другу, то Н увеличивается. В более общем виде, если над вероятностями
произвести операцию «осреднения» вида
где
и все
то Н увеличивается (за исключением того частного случая, в котором такое преобразование сводится к одной только перестановке
что, конечно, не изменяет значения Н).
5. Пусть имеются два случайных события х и у, как и в п. 3, не обязательно независимые. Для каждого частного значения
которое может принять х, имеется условная вероятность
того, что у при этом примет значение
Она задается выражением
Определим условную энтропию
величины у как величину, получаемую в результате осреднения энтропии у, вычисленной по всем значениям х, с весами, соответственно равными вероятностям этих значений х. Таким образом,
Эта величина показывает, какова в среднем неопределенность значения у, когда известно значение х. Подставляя значение
получим
или
Неопределенность (или энтропия) совместного события
равна неопределенности события х плюс неопределенность события у, когда х известно.
6. Из
и 5 имеем
Отсюда
Неопределенность события у не возрастает от того, что событие х становится известным. Она уменьшается, если только события х и у не являются независимыми. В противном случае она не изменяется.