3. Избыточность в языке
Применяя наше определение, например, к английскому языку, мы хотим получить точное значение средней информации на букву. Это значение выражается как предел
При возрастании N учитывается большее количество ограничений, так что информация убывает. Последовательность
должна, таким образом, монотонно убывать, и ее предельное значение и есть действительная средняя информация на букву.
Вероятности отдельных букв, так же как двух- и трехбуквенных сочетаний, для английского языка были определены, но для сочетаний большего числа букв существующие данные недостаточны. Имеющиеся данные сведены в таблице, в которой F означают информацию, выраженную в двоичных единицах на букву:
1. Все буквы равновероятны (27 букв, включая интервал)
.
2. С учетом вероятностей отдельных букв
.
3. С учетом данных о двухбуквенных сочетаниях
.
4. С учетом данных о трехбуквенных сочетаниях
.
Избыточность выражается через F следующим образом:
Однако
неизвестно, так как имеется очень мало Сведений о сочетаниях более чем из трех букв. Для оценки
значения
мы можем привлечь другого рода статистику, а именно, частоту слов. Таблицы частоты слов были составлены как для целей кодирования, так и для эффективного обучения языку.
Частота слова характеризуется его порядковым номером в списке, составленном в порядке частоты появления.
Рис. 3.1. График (в логарифмическом масштабе по обеим осям) частоты слов в зависимости от порядкового номера для первых 8727 слов.
На рис. 3.1 логарифм частоты построен в зависимости от логарифма порядкового номера, начиная с the и кончая словом за № 8727 для того, чтобы сумма частот равнялась единице. Как видим, график представляет практически прямую линию (в двойном логарифмическом масштабе) и может быть хорошо аппроксимирован формулой
Применяя это выражение, находим, что
Далее, если считать, что среднее английское слово (включая интервал между словами) содержит 5,5 буквы, то получаем предельное значение
. Эта величина не та же, что
, так как имеются еще дополнительные ограничения, обусловленные связями между последовательными словами.