6.5. Сжатие звука в стандарте MPEG-1

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

6.5. Сжатие звука в стандарте MPEG-1

Стандарт MPEG-1 сжатия видеофильмов состоит из двух основных частей: сжатия видео и сжатия звука. В этом параграфе обсуждается принципы компрессии звука в MPEG-1, а именно, его третий слой, который широко известен по аббревиатуре МР3. Мы советуем читателям обязательно прочитать первую часть этой главы перед тем, как пытаться освоить этот материал.

Формальное имя стандарта MPEG-1 - international standard for moving picture video compression IS 11172 (международный стандарт для сжатия движущихся изображений). Он состоит из 5 частей, среди которых часть 3 [ISO/IEC 93] определяет алгоритм сжатия звука. Как любой стандарт, выработанный ITU или ISO, документ, описывающий MPEG-1, имеет нормативный и описательный разделы. Нормативный раздел содержит спецификации стандарта. Он написан строгим языком для тех, кто будем создавать программные реализации метода для конкретных машинных платформ. Описательный раздел иллюстрирует выбранные концепции, объясняет причины выбора того или иного подхода, содержит необходимые базовые сведения.

Примером нормативного раздела являются таблицы с различными параметрами и с кодами Хаффмана, которые используются в стандарте MPEG. А примером описательного раздела служит алгоритм, задающий психоаккустическую модель. MPEG не дает конкретного алгоритма, и кодер MPEG свободен в выборе метода реализации модели. В этом параграфе просто рассматриваются некоторые возможные альтернативы.

Аудиостандарт MPEG-1 описывает три метода сжатия, называемые слоями (layer), которые обозначаются римскими числами I, II и III. Все три слоя входят в стандарт MPEG-1, но здесь будет описан только слой III. При сжатии видеофильмов используется только один слой, который обозначается в заголовке сжатого файла. Любой из этих слоев можно независимо использовать для сжатия звука без видео. Функциональные модули младших слоев могут быть использованы старшими слоями, но более высокие слои используют дополнительные возможности для лучшего сжатия. Интересной особенностью слоев является их иерархическая структура, то есть, декодер слоя III может декодировать файлы сжатые слоями I и II.

Результатом разработки трех слоев было возрастание популярности слоя III. Кодер этого метода очень сложен, но он производит замечательную компрессию, это обстоятельство в сочетании с тем, что декодер существенно проще кодера, породило небывалый взрыв популярности звуковых файлов, которые называются МР3-файлами. Очень легко добыть декодер слоя III, с помощью которого можно прослушивать записи формата МР3, которые в огромном количестве находятся во всемирной паутине. Это был настоящий триумф аудиочасти проекта MPEG.

Аудиостандарт MPEG [ISO/IEC 93] начинается нормативным описанием формата сжатого файла для каждого из трех слоев. Затем следует нормативное описание декодера. Описание кодера (оно разное для всех слоев), а также двух психоакустических моделей содержится в описательном разделе; любой кодер, способный сгенерировать корректно сжатый файл, может считаться допустимым кодером MPEG. Имеется также несколько приложений, в которых обсуждаются смежные вопросы, например, защита от ошибок.

По контрасту с MPEG-видео, где имеется большое число информационных ресурсов, читателю доступно относительно малое число источников технической литературы по MPEG-аудио. Вместе со ссылками следующего абзаца можно порекомендовать MPEG консорциум [MPEG 2000]. На этом сайте имеется масса ссылок на другие ресурсы, которые время от времени обновляются. Другим источником информации может служить Ассоциация аудиоинженеров (Association of Audio Engineers, AES). Большинство идей и технических решений, использованных в аудиостандарте MPEG были опубликованы в трудах многих конференций этой организации. Однако эти материалы не являются свободно доступными и их можно получить только из AES.

Для дополнительной информации по трем слоям см. [Brandenburg, Stoll 94], [ISO/IEC 93], [Pan 95], [Rao, Hwang 96] и [Shlien 94].

При оцифровывании видеофильмов звуковая часть может состоять из двух звуковых дорожек (стереозвук), каждая из которых сэмплирована при 44.1 кГц с 16-битными звуковыми фрагментами. Это приводит к битовой скорости аудиоданных бит/сек, близкой к 1.5 Мбит/сек. Кроме скорости сэмплирования в 44.1 кГц предусмотрены скорости 32 кГц и 48 кГц. Важным свойством MPEG аудио является возможность задания пользователем коэффициента сжатия. Стандарт позволяет получить битовую скорость сжатого звукового файла в диапазоне от 32 до 224 Кбит/сек на один аудиоканал (их обычно два для стереозвука). В зависимости от исходной частоты сэмплирования, эти битовые скорости означают фактор сжатия от 2.7 (низкий) до 24 (впечатляющий)! Причина жесткой заданности битовой скорости сжатого файла связана с необходимостью синхронизации звука и сжатого видеоряда.

В основе сжатия звука в MPEG лежит принцип квантования. Однако, квантуемые величины берутся не из звуковых сэмплов, а из чисел (называемых сигналами) которые выделяются из частотной области звука (это обсуждается в следующем абзаце). Тот факт, что коэффициент сжатия (или битовая скорость) известен кодеру означает, что кодер в каждый момент времени знает, сколько бит можно назначить квантуемому сигналу. Следовательно важной частью кодера является (адаптивный) алгоритм назначения битов. Этот алгоритм использует известную битовую скорость и частотный спектр самых последних аудиосэмплов для определения размера квантованного сигнала так, чтобы шум квантования (разность между исходным сигналом и его квантованным образом) была неслышимой (т.е., она находится ниже порога маскирования, который обсуждался в § 6.3).

Психоакустические модели используют частоту сжимаемого звука, но входной файл содержит звуковые сэмплы, а не звуковые частоты. Эти частоты необходимо вычислить с помощью сэмплов. По этой причине первым шагом аудиокодера MPEG является дискретное преобразование Фурье, при котором 512 последовательных звуковых сэмплов преобразуется в частотную область. Поскольку количество частот может быть большим, их группируют в 32 подполосы одинаковой ширины. Для каждой подполосы вычисляется число, которое указывает на интенсивность звука в данной подполосе. Эти числа, называемые сигналами, затем квантуются. Грубость квантования на каждой подполосе определяется с помощью порога маскирования этой подполосы, а также с помощью числа оставшихся для кодирования битов. Порог маскирования для каждой подполосы вычисляется с помощью психоакустической модели.

MPEG использует две психоакустические модели для частотного и временного маскирования. Каждая модель описывает, как громкий звук маскирует другие звуки, которые близки к этому звуку по частоте или по времени. Модель разделяет область частот на 24 критические полосы и определяет, как эффекты маскирования проявляются в каждой из полос. Эффект маскирования, конечно, зависит от частот и амплитуд тонов. Когда звук разжимается и воспроизводится, пользователь (слушатель) может выбрать любую амплитуду звучания, поэтому психоакустическая модель должна быть разработана для наихудшего случая. Эффекты маскирования также зависят от природы источника сжимаемого звука. Источник может быть музыкальноподобным или шумоподобным. Две психоакустические модели основаны на результатах экспериментальной работе исследователей за многие годы.

Декодер должен быть быстрым, поскольку ему, возможно, предстоит декодировать видео и аудио в режиме реального времени. Поэтому он должен быть простым. Значит, у него нет времени использовать психоакустическую модель или алгоритм назначения битов. То есть, сжатый файл должен содержать исчерпывающую информацию, которую декодер будет использовать при деквантовании сигналов. Эта информация (размер квантованных сигналов) должна быть записана кодером в сжатый файл и она требует некоторое дополнительные расходы, которые будут удовлетворены за счет оставшихся битов.

Рис. 6.8. Кодер звука MPEG (а) и его декодер (b).

На рис 6.8 приведена блок-схема основных компонентов кодера и декодера звука в MPEG. Вспомогательные данные определяются пользователем; обычно они связаны с конкретными приложениями. Эти данные не являются обязательными.

<< Предыдущий параграф

Следующий параграф >>

Оглавление