2.8. Энтропия
В разд. 2.6 мы видели, что собственная информация сообщения может быть интерпретирована, как количество информации, требуемое для его однозначного определения. Следовательно, количество информации, которое в среднем должно иметься в нашем распоряжении для того, чтобы выделить любое сообщение из ансамбля X, есть среднее значение информации
Это выражение является основным; оно было использовано Шенноном в качестве отправного пункта в его первоначальном изложении теории. По форме оно идентично выражению, полученному в статистической механике для термодинамической величины, известной как «энтропия» (точнее, средняя энтропия канонической системы), если
рассматривать как вероятность одного из возможных состояний системы. В виду этого в теории передачи сообщений для обозначения величины, определяемой формулой (2.89), используется тот же самый термин «энтропия». Таким образом,
служат для обозначения одной и той же величины. На самом деле связь между средним значением информации и энтропией оказывается более глубокой, чем только простая математическая аналогия [3]. Хотя детальное обсуждение этой связи выходит за пределы настоящей книги, все же имеет смысл упомянуть об основных относящихся сюда идеях.
Величину
можно рассматривать как меру «неопределенности» сообщения до того, как оно было принято. С другой стороны, термодинамическая энтропия есть в некотором смысле мера «неупорядоченности», т. е. неопределенности микросостояния, в котором система может находиться в данный момент времени. Можно привести примеры, когда использование некоторых сведений о микросостоянии физической системы приводит к уменьшению ее энтропии [3]. Показано, однако, что возможное уменьшение энтропии в «среднем» не может быть больше количества информации о состоянии системы, измеренного в соответствующих единицах, а физический процесс получения таких сведений приводит к возрастанию энтропии, не меньшему среднего количества полученной информации. Таким образом, как
и следовало ожидать, второй закон термодинамики не нарушается при таких процессах.
Энтропия
неотрицательна, поскольку неотрицательна
Так как произведение
обращается в нуль только при
или
то
обращается в нуль тогда и только тогда, когда
в некоторой точке
из
Такая ситуация возникает, например, когда может передаваться только одно сообщение. В этом случае мы не получаем о нем никакой информации, поскольку оно полностью определено с самого начала.
Поведение энтропии
как функции от
представляет особый интерес, когда пространство X интерпретируется как множество символов, используемых для кодирования. В этом случае (см. разд. 2.6) собственная информация в некотором символе равна количеству информации, которое этот символ может содержать о сообщении на входе кодера. Таким образом, энтропия ансамбля символов равна количеству информации, которое в среднем может содержать какой-либо символ, и как таковая она является мерой эффективности использования различных символов. В этой связи особенно важным является следующее свойство
Теорема. Энтропия
удовлетворяет неравенству
где
число точек в пространстве
Знак равенства имеет место тогда и только тогда, когда
равна одному и тому же значению
для всех точек пространства
Доказательство. Эту теорему можно доказать с помощью неравенства
которое следует из того факта, что линия
касается прямой
в точке
и ее наклон является монотонно убывающей функцией
Рассмотрим разность
Подставляя правую часть неравенства (2,91) в каждый член правой части формулы (2.92), получаем
Знак равенства имеет место тогда и только тогда, когда
поскольку при этом значении
имеет место знак равенства в формуле (2.91). Ч. Т. Д.)
Пример. В случае
формула (2.89) приводит к
где
вероятность одной из двух точек пространства. Поведение
как функции
показано на рис.
принимает максимальное значение, равное одной двоичной единице при
кривая симметрична относительно этого значения
Рис. 2.9. Энтропия, выраженная в двоичных единицах, двоичного алфавита как функция вероятности одного из двух символов.
Основной смысл свойства
выраженного формулой (2.90), может быть сформулирован, следующим образом. Для любого заданного алфавита символов количество информации, которое в среднем может содержаться в одном символе, достигает максимума, когда все символы используются с равными вероятностями. Это максимальное значение будем называть «информационной пропускной способностью», или, короче, «пропускной способностью» алфавита; она измеряется логарифмом числа символов в алфавите. Таким образом, например, емкость двоичного алфавита равна одной двоичной единице.
Рассмотрим теперь произведение ансамблей
Среднее значение условной собственной информации
где суммирование ведется по всем точкам произведения пространств
Мы будем называть эту величину условной энтропией
при заданном X, а для обозначения ее будем
использовать как символы, приведенные в ее правой части, так и символы, приведенные в ее левой части. Энтропия
произведения ансамблей
связана с
соотношением
Это соотношение можно легко проверить, заметив, что оно сводится просто к осреднению выражения
по ансамблю
Теорема. Для заданного произведения ансамблей условная энтропия
удовлетворяет неравенству
в котором знак равенства имеет место тогда и только тогда, когда у статистически не зависит от х, т. е. когда
Доказательство. Эту теорему можно доказать, используя снова выражение (2.91). Рассмотрим разность
Подставляя правую часть выражения (2.91) вместо логарифма в каждом члене суммы, получим
Знак равенства будет иметь место тогда и только тогда, когда
так как при этом значении
имеет место знак равенства в формуле (2.91). Ч. Т. Д.
Теорема. Для заданного произведения ансамблей
условные энтропии
удовлетворяют неравенству
в котором знак равенства имеет место тогда и только тогда, когда z статистически не зависит от х при любом заданном у, т. е. когда
Доказательство. Доказательство этой теоремы почти совпадает с доказательством предыдущей; по этой причине оно здесь не приводится.
Эти теоремы весьма важны в связи с кодированием сообщений. В самом деле, если мы рассматриваем х,
как последовательные символы кодового слова, то среднее количество информации, которое может содержаться в z, не может увеличиться, если сделать z статистически зависимым от предыдущих символов, т. е. если сделать условную вероятность
отличной от
. В частности, пропускная способность данного кодового алфавита не может увеличиться за счет введения какой-либо взаимной зависимости между последовательными символами. Отсюда следует (подробности см. в разд. 3.1), что число символов, требуемых в среднем для идентификации сообщения из данного ансамбля, не может быть меньше, чем отношение энтропии ансамбля сообщений к пропускной способности используемого алфавита. В частном случае двоичных кодовых слов энтропия ансамбля сообщений образует нижнюю границу для среднего числа двоичных символов в кодовом слове.
В следующей главе будет показано, что к этой нижней границе можно приблизиться как угодно точно, рассматривая операции над ансамблями, образованными достаточно длинными последовательностями независимых сообщений. Этот результат позволит дать строгую конструктивную интерпретацию энтропии ансамбля сообщений, а следовательно, и количества информации, определенного в разд. 2.3.