4. Информация и алфавит
Большая часть используемой нами информации сообщается посредством языка. В устной речи элементарными символами являются основные звуки (называемые часто фонемами), а в письменной речи слова составлены из букв. Рассмотрим письменное предложение и подсчитаем количество информации, содержащейся в этом предложении. Эта сложная задача имеет большое практическое значение; она была подробно обсуждена К. Шенноном) и многими другими. Как мы увидим, полное и строгое решение задачи до сих пор неизвестно из-за отсутствия полных статистических данных о языке.
Мы можем рассматривать буквы как символы, которые необходимо выбирать для построения предложения. Полный алфавит содержит 27 символов: 26 букв плюс промежуток между словами. Если эти 27 символов равновероятны априори, то мы можем сказать, что информация, содержащаяся в предложении из G букв, составляет:
или
на букву.
Это соответствует прямому применению формулы (1.7). Однако полученное таким образом решение неудовлетворительно, так как различные буквы встречаются в языке с неодинаковыми априорными вероятностями (таблица 1.1).
Пусть
— априорная вероятность
буквы
как указано в таблице 1.1. Средняя информация
Таблица 1.1. Вероятность появления р и значения
для букв английского языка
на одну букву, согласно Шеннону, запишется как
Обсудим применимость этой формулы.