Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
2. Мера количества информации по ШэннонуКоличество информации, содержащееся в сообщении, может быть определено как минимальная емкость, потребная для его хранения. Для ясности начнем с частного примера. Рассмотрим сообщение, имеющее два состояния, например, ответ на некоторый вопрос, допускающий лишь ответы «да» и «нет». Если я задаю вопрос: «Вы — левша?», ответное сообщение имеет два состояния и может быть запасено одной двоичной запасающей ячейкой. Хочется сказать, что сообщение содержит одну двоичную единицу информации, так как взятое само по себе оно не может быть запасено более экономно. Но такое заключение было бы слишком поспешно. Допустим, что наш вопрос задан 128 лицам, и 128 ответных: двоичных сообщений запасены системой из двоичных запасающих ячеек. (Предполагается, что нам нужно не только подсчитать число ответов «да» и число ответов «нет», но и сохранить в точности порядок ответов.) Идя по наименее замысловатому пути, т. е. используя одну запасающую ячейку на каждое сообщение, мы получили бы, например, такуьр последовательность:
Ожидаемым ответом на вопрос «Вы - левша?» является «нет» и из 128 сообщений лишь одно или два будут иметь состояние «да». Ясно теперь, что было бы более экономным запасать положения ответов «да» в последовательности и преобразовывать номера 9, 25 и т. д. [из последовательности (2)] к двоичному виду 0001001 и 0011001. Нужно брать 7 знаков, так как всего имеется
которая, подобно (2), использует двоичные запасающие ячейки, не в гораздо меньшем числе. (Составной частью кода нужно считат! то, что кодирование производится в группы по семи знаков. Этил избегается необходимость обозначения конца группы знаков; такш обозначения нарушали бы двоичность.) Приведенный код, являю щийся лишь одним из многих, которые могли бы быть придуманы показывает, что множество сообщений, имеющих два состояния может быть иногда записано таким образом, что каждое сообщение занимает в среднем меньше, чем одну двоичную единицу емкости накопителя. Отсюда можно непосредственно заключить, что эти сообщения содержат в среднем меньше, чем одну двоичную единицу информации каждое. Перед тем, как приступить к общему исследованию, рассмотрим наш пример немного подробнее. Емкость, занимаемая первоначальной последовательностью, фиксирована, так как число сообщений предполагалось заданным и фиксированным. Но длина кодированной последовательности не фиксирована, даже при заданном коде, ибо она зависит от того, в каких пропорциях появились «да» и «нет» в исходной последовательности. Если использовать указанный выше код, может случиться, что конечная последовательность будет длинее первоначальной, но это произойдет только тогда, если нам встретился неожиданно много левшей. В среднем кодированные последовательности будут короче исходных, и именно это среднее свойство нас здесь интересует. Наиболее эффективным кодом является тот, при котором средняя емкость является наименьшей из всех возможных. Эту минимальную среднюю емкость мы и должны узнать для того, чтобы дать определение количества информации. «Нужно еще отметить следующее. Если вероятности состояний «да» и «нет» наших сообщений изменятся, хороший код может стать плохим. В нашем примере, очевидно, если бы редким состоянием было «нет», лучше было бы запасать положения ответов «нет», а не «да». Таким образом, наилучший код должен зависеть от априорных вероятностей различных сообщений. Если вероятности меняются, а вместе с ними меняется и наилучший код, минимальная средняя емкость, вообще говоря, также меняется. Таким образом, количество информации в сообщении должно, несомненно, зависеть не только от числа состояний сообщения, но и от априорных вероятностей различных состояний. Все сказанное было лишь введением. Мы должны теперь рассмотреть очень интересную статистическую задачу о вычислении минимальной средней емкости, нужной для сообщения, если даны вероятности его различных состояний. Вычислительная сторона задачи легка, чего нельзя сказать, однако, про ее принципиальную сторону. Первый подход заключается в том, чтобы взять последовательность из принимать в расчет. Таковы трудные ступени рассуждения; формальная же их обработка очень проста. Для простоты рассмотрим сообщения, имеющие лишь два состояния, и предположим, что вероятности этих состояний, которые мы можем назвать гербом и решеткой, равны
с ростом
Общее число последовательностей, для которых
В пределе, как бы ни было мало
где
Когда
Таким образом, в силу
что является ответом на поставленную задачу. Таково среднее количество информации двоичного сообщения, в котором
Возвращаясь к примеру, приведенному в начале этого параграфа, мы видим из (11), что каждое состояние «нет» содержит меньше, чем одну двоичную единицу информации, так как вероятность ответа «нет» (по предположению) больше одной второй. Состояния «да» содержат больше, чем по одной единице, потому что их вероятности меньше половины. И, наконец, если в (10) подставляются две неравных вероятности Весьма замечательно то, до какой степени (10) и (11) соответствуют интуитивным представлениям, а также тому, что Хартли назвал психологическими факторами. Интуицияг подсказывает, что ожидание информации от ответа на двоичный вопрос максимально тогда, когда заранее оба возможных ответа равновероятны. Но пусть заранее почти достоверен ответ «нет». Если мы получаем сообщение «нет», то мы почти ничего не узнаем. Если же получится ответ «да», мы узнаем гораздо больше. В среднем из ответов на вопросы с почти предопределенным ответом мы узнаем мало, так как обычно получается более вероятный ответ, несущий меньшую информацию. В крайнем случае, когда Когда сообщение имеет больше, чем два состояния, среднее количество информации на одно сообщение дается формулой Шэннона [1, 4]
где
в согласии с выражением Хартли. Другими словами, при этом количество информации равно емкости. Отсюда видно, что запасающее устройство используется наиболее эффективно, когда все его состояния имеют равные вероятности «быть занятыми». В противном случае Читавшие первую главу узнают в выражении (12) энтропию распределения вероятностей
|
1 |
Оглавление
|