11. Дискретные источники информации
До сих пор рассматривались главным образом каналы. Пропускная способность С определяет максимальную скорость передачи случайной последовательности двоичных цифр, если они закодированы наилучшим возможным способом. В общем случае информация, подлежащая передаче, не имеет такой формы. Она может быть, например, последовательностью букв, как в телеграфии, звуками речи или телевизионным сигналом. Можно ли найти эквивалентное число двоичных единиц для источников информации названных типов? Рассмотрим сначала дискретный источник, т. е. случай, когда сообщение состоит из дискретных символов. Вообще говоря, могут существовать разного рода корреляции между отдельными символами. Если сообщение представляет собой английский текст, то буква Е встречается чаще всего, за Т часто следует Я и т.
Эти корреляции позволяют сжать текст путем соответствующего кодирования. Можно определить энтропию дискретного источника аналогично тому, как это было сделано для шума, а именно
где
- вероятность последовательности символов
, а сумма берется по всем последовательностям из
символов. Тогда энтропия есть
Оказывается, что Я есть число двоичных единиц, производимое источником на каждый символ сообщения. Нижеследующая теорема доказывается в приложении.
Теорема 4. Возможно закодировать все последовательности из
символов сообщения в виде последовательностей двоичных цифр таким образом, что среднее число двоичных единиц на символ сообщения равно приблизительно Н, причем приближенное равенство переходит в точное с возрастанием
Отсюда следует, что если имеется канал с пропускной способностью С и дискретный источник с энтропией Я, то возможно закодировать сообщения, превратив их через двоичные цифры в сигнал, и вести передачу со скоростью
первоначальных символов сообщения в секунду.
Например, если источник производит последовательность букв (А, В и С с вероятностью
и последовательные буквы выбираются независимо, то
и информация составляет 1,294 бит на каждую букву сообщения. Канал с пропускной способностью 100 бит/сек. может передавать при наилучшем коде
букв/сек.