Главная > Работы по теории информации и кибернетики (1963)
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

2. Вычисление энтропии по статистике английского языка

По одному из методов вычисления энтропии задается ряд последовательных приближений , как к пределу, которые учитывают все большее число и более тонкие статистические закономерности языка. Приближение может быть названо -граммной энтропией; она измеряет количество информации, или энтропию, с учетом статистических связей не длиннее, чем на следующих друг за другом букв текста. дается формулой

в которой — блок из буквы -грамма, — произвольная буква, следующая за — вероятность -граммы — условная вероятность буквы следовать за блоком равная

Соотношение (1) можно интерпретировать как формулу для вычисления средней неопределенности (условной энтропии) последующей буквы когда известны предыдущие букв. При возрастании в величине учитываются все более и более далекие статистические связи и энтропия Я является предельным значением при

Л-граммная энтропия Для малых значений может быть подсчитана из обычных частотных таблиц отдельных букв, двухбуквенных (диграмм) и трехбуквенных сочетаний (триграмм). Если промежутком между буквами и знаками препинания пренебречь, то получим -буквенный алфавит и может быть взята (по определению) равной или 4,7 бита на букву. при использовании частоты появления отдельных букв равна

Диграммное приближение дает результат

Триграммная энтропия равна

Таблицы триграмм, использованные в этих вычислениях, не принимали в расчет трехбуквенных сочетаний, связывающих два слова, к примеру, и в словосочетании Для частичной компенсации этого упущения были составлены исправленные таблицы вероятностей трехбуквенных сочетаний полученных из вероятностей взятых из таблиц, с помощью-следующей грубой формулы:

где есть вероятность того, что буква находится на последнем месте в слове, — вероятность того, что буква является начальной буквой слова. Таким образом, триграммы внутри слов (в среднем 2,5 на слово) вычислялись в соответствии с таблицей; триграммы, встречающиеся между словами (по одной каждого типа на слово), вычислялись приближенно в предположении независимости последней буквы слова и начальной диграммы следующего слова и, наоборот, последней диграммы слова и начальной буквы следующего слова. В результате этих приближений, а также вследствие того факта, что выборочная ошибка при отождествлении вероятности с выборочной частотой является в этом случае более существенной, полученную величину для следует считать менее надежной, чем предыдущие.

Поскольку таблиц -граммных частот при не существует, нельзя вычислить тем же путем. Однако были составлены таблицы частоты появления слов, и их можно использовать для получения дальнейших приближений. Рис. 1 изображает в логарифмическом масштабе вероятность слов в порядке убывания частоты их появления. Наиболее часто встречающееся английское слово «the» имеет вероятность 0,071 и изображено над 1. Следующее по частоте слово имеет вероятность 0,034 и изображено над 2 и т. д. При использовании логарифмического масштаба как для

вероятности, так и для порядкового номера слова, получающаяся кривая выглядит приблизительно прямой линией с наклоном —1; таким образом, если есть вероятность по порядку слова, имеем приблизительно

Ципф указал, что формула вида дает довольно хорошее приближение вероятностей слов во многих языках.

Рис. 1.

Формула (6), очевидно, не справедлива при стремящемся к поскольку общая вероятность должна быть равна единице, в то время как — равна бесконечности. Если предположить (ввиду отсутствия любой более удовлетворительной оценки), что формула выполняется до тех значений пока общая вероятность не станет

равной единице, и что больших значений то найдем, что наибольшее равно 8,727. Тогда энтропия равна

или бита на букву, поскольку средняя длина слова в английском языке равна 4,5 буквы. Можно попытаться отождествить это значение с но в действительности ордината кривой при будет лежать над этим значением. Причина этого заключается в том, что в учтены группы из четырех или пяти букв независимо от подразделения на слова. Слово является связанной группой букв с сильными внутренними статистическими связями и, следовательно, -граммы, находящиеся внутри слов, несут в себе большие статистические ограничения, чем -граммы, включающие промежутки между словами. В результате этого полученная нами оценка 2,62 бита на букву более близка, скажем, к или

Аналогичные вычисления были проделаны с учетом пробела между словами как дополнительной буквы, приводящей к алфавиту из 27 букв. Ниже собраны результаты для буквенных вычислений

Оценка 2,3 для упомянутая выше, была найдена несколькими методами, один из которых состоит в экстраполяции до приведенных результатов для -буквенного алфавита. Поскольку пробел между словами является почти полностью избыточным, когда рассматриваются последовательности из многих слов, то значения для -буквенного алфавита равны или 0,818 от для -буквенного алфавита при больших

1
Оглавление
email@scask.ru