Главная > Сжатие данных, изображений и звука
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.5. Сжатие звука в стандарте MPEG-1

Стандарт MPEG-1 сжатия видеофильмов состоит из двух основных частей: сжатия видео и сжатия звука. В этом параграфе обсуждается принципы компрессии звука в MPEG-1, а именно, его третий слой, который широко известен по аббревиатуре МР3. Мы советуем читателям обязательно прочитать первую часть этой главы перед тем, как пытаться освоить этот материал.

Формальное имя стандарта MPEG-1 - international standard for moving picture video compression IS 11172 (международный стандарт для сжатия движущихся изображений). Он состоит из 5 частей, среди которых часть 3 [ISO/IEC 93] определяет алгоритм сжатия звука. Как любой стандарт, выработанный ITU или ISO, документ, описывающий MPEG-1, имеет нормативный и описательный разделы. Нормативный раздел содержит спецификации стандарта. Он написан строгим языком для тех, кто будем создавать программные реализации метода для конкретных машинных платформ. Описательный раздел иллюстрирует выбранные концепции, объясняет причины выбора того или иного подхода, содержит необходимые базовые сведения.

Примером нормативного раздела являются таблицы с различными параметрами и с кодами Хаффмана, которые используются в стандарте MPEG. А примером описательного раздела служит алгоритм, задающий психоаккустическую модель. MPEG не дает конкретного алгоритма, и кодер MPEG свободен в выборе метода реализации модели. В этом параграфе просто рассматриваются некоторые возможные альтернативы.

Аудиостандарт MPEG-1 описывает три метода сжатия, называемые слоями (layer), которые обозначаются римскими числами I, II и III. Все три слоя входят в стандарт MPEG-1, но здесь будет описан только слой III. При сжатии видеофильмов используется только один слой, который обозначается в заголовке сжатого файла. Любой из этих слоев можно независимо использовать для сжатия звука без видео. Функциональные модули младших слоев могут быть использованы старшими слоями, но более высокие слои используют дополнительные возможности для лучшего сжатия. Интересной особенностью слоев является их иерархическая структура, то есть, декодер слоя III может декодировать файлы сжатые слоями I и II.

Результатом разработки трех слоев было возрастание популярности слоя III. Кодер этого метода очень сложен, но он производит замечательную компрессию, это обстоятельство в сочетании с тем, что декодер существенно проще кодера, породило небывалый взрыв популярности звуковых файлов, которые называются МР3-файлами. Очень легко добыть декодер слоя III, с помощью которого можно прослушивать записи формата МР3, которые в огромном количестве находятся во всемирной паутине. Это был настоящий триумф аудиочасти проекта MPEG.

Аудиостандарт MPEG [ISO/IEC 93] начинается нормативным описанием формата сжатого файла для каждого из трех слоев. Затем следует нормативное описание декодера. Описание кодера (оно разное для всех слоев), а также двух психоакустических моделей содержится в описательном разделе; любой кодер, способный сгенерировать корректно сжатый файл, может считаться допустимым кодером MPEG. Имеется также несколько приложений, в которых обсуждаются смежные вопросы, например, защита от ошибок.

По контрасту с MPEG-видео, где имеется большое число информационных ресурсов, читателю доступно относительно малое число источников технической литературы по MPEG-аудио. Вместе со ссылками следующего абзаца можно порекомендовать MPEG консорциум [MPEG 2000]. На этом сайте имеется масса ссылок на другие ресурсы, которые время от времени обновляются. Другим источником информации может служить Ассоциация аудиоинженеров (Association of Audio Engineers, AES). Большинство идей и технических решений, использованных в аудиостандарте MPEG были опубликованы в трудах многих конференций этой организации. Однако эти материалы не являются свободно доступными и их можно получить только из AES.

Для дополнительной информации по трем слоям см. [Brandenburg, Stoll 94], [ISO/IEC 93], [Pan 95], [Rao, Hwang 96] и [Shlien 94].

При оцифровывании видеофильмов звуковая часть может состоять из двух звуковых дорожек (стереозвук), каждая из которых сэмплирована при 44.1 кГц с 16-битными звуковыми фрагментами. Это приводит к битовой скорости аудиоданных  бит/сек, близкой к 1.5 Мбит/сек. Кроме скорости сэмплирования в 44.1 кГц предусмотрены скорости 32 кГц и 48 кГц. Важным свойством MPEG аудио является возможность задания пользователем коэффициента сжатия. Стандарт позволяет получить битовую скорость сжатого звукового файла в диапазоне от 32 до 224 Кбит/сек на один аудиоканал (их обычно два для стереозвука). В зависимости от исходной частоты сэмплирования, эти битовые скорости означают фактор сжатия от 2.7 (низкий) до 24 (впечатляющий)! Причина жесткой заданности битовой скорости сжатого файла связана с необходимостью синхронизации звука и сжатого видеоряда.

В основе сжатия звука в MPEG лежит принцип квантования. Однако, квантуемые величины берутся не из звуковых сэмплов, а из чисел (называемых сигналами) которые выделяются из частотной области звука (это обсуждается в следующем абзаце). Тот факт, что коэффициент сжатия (или битовая скорость) известен кодеру означает, что кодер в каждый момент времени знает, сколько бит можно назначить квантуемому сигналу. Следовательно важной частью кодера является (адаптивный) алгоритм назначения битов. Этот алгоритм использует известную битовую скорость и частотный спектр самых последних аудиосэмплов для определения размера квантованного сигнала так, чтобы шум квантования (разность между исходным сигналом и его квантованным образом) была неслышимой (т.е., она находится ниже порога маскирования, который обсуждался в § 6.3).

Психоакустические модели используют частоту сжимаемого звука, но входной файл содержит звуковые сэмплы, а не звуковые частоты. Эти частоты необходимо вычислить с помощью сэмплов. По этой причине первым шагом аудиокодера MPEG является дискретное преобразование Фурье, при котором 512 последовательных звуковых сэмплов преобразуется в частотную область. Поскольку количество частот может быть большим, их группируют в 32 подполосы одинаковой ширины. Для каждой подполосы вычисляется число, которое указывает на интенсивность звука в данной подполосе. Эти числа, называемые сигналами, затем квантуются. Грубость квантования на каждой подполосе определяется с помощью порога маскирования этой подполосы, а также с помощью числа оставшихся для кодирования битов. Порог маскирования для каждой подполосы вычисляется с помощью психоакустической модели.

MPEG использует две психоакустические модели для частотного и временного маскирования. Каждая модель описывает, как громкий звук маскирует другие звуки, которые близки к этому звуку по частоте или по времени. Модель разделяет область частот на 24 критические полосы и определяет, как эффекты маскирования проявляются в каждой из полос. Эффект маскирования, конечно, зависит от частот и амплитуд тонов. Когда звук разжимается и воспроизводится, пользователь (слушатель) может выбрать любую амплитуду звучания, поэтому психоакустическая модель должна быть разработана для наихудшего случая. Эффекты маскирования также зависят от природы источника сжимаемого звука. Источник может быть музыкальноподобным или шумоподобным. Две психоакустические модели основаны на результатах экспериментальной работе исследователей за многие годы.

Декодер должен быть быстрым, поскольку ему, возможно, предстоит декодировать видео и аудио в режиме реального времени. Поэтому он должен быть простым. Значит, у него нет времени использовать психоакустическую модель или алгоритм назначения битов. То есть, сжатый файл должен содержать исчерпывающую информацию, которую декодер будет использовать при деквантовании сигналов. Эта информация (размер квантованных сигналов) должна быть записана кодером в сжатый файл и она требует некоторое дополнительные расходы, которые будут удовлетворены за счет оставшихся битов.

318.jpg

Рис. 6.8. Кодер звука MPEG (а) и его декодер (b).

На рис 6.8 приведена блок-схема основных компонентов кодера и декодера звука в MPEG. Вспомогательные данные определяются пользователем; обычно они связаны с конкретными приложениями. Эти данные не являются обязательными.

 

1
Оглавление
email@scask.ru