4.6.2. Нейронная сеть для сжатия данных

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

4.6.2. Нейронная сеть для сжатия данных

Задача сжатия (компрессии) данных состоит в уменьшении количества хранимой или передаваемой информации с возможностью ее полного восстановлеюи (декомпрессии). Применение нейронной сети позволяет получить новые решеню для сжатия с потерей (с допустимой утратой определенной части информации при хороших обобщающих способностях и относительно высоком коэффициент? компрессии.

Для иллюстрации будем использовать линейную сеть с одним скрытым слоем, изображенную на рис. 4.13. Количество нейронов выходного слоя равно числу узлов входного слоя. Скрытый слой содержит нейронов, причем Входной и скрытый слои выполняют собственно компрессию данных, тогда как скрытый и выходной слои осуществляют декомпрессию. Сеть является автоассоциативной, поэтому ее обучающий вектор совпадает с зходным вектором а выходные сигналы сети соответствуют входным сигналам

Рис. 4.13. Структура нейронной сети для сжатия данных

Компрессии подвергаются данные, разделенные на кадры, представляемые последовательностью -элементных векторов — количество входных узлов). Кадры имеют форму прямоугольника с размерами пикселов по горизонтали и - по вертикали. Градации интенсивности пикселов, входящих в кадр, задаются значениями компонентов вектора х. Пример разделения изображения на кадры с последующим соотнесением повторяющихся пикселов изображения вектору представлен на рис. 4.14.

Поскольку в скрытом слое может храниться меньше информации, чем во входном слое, однако она будет репрезентативной для множества данных и достаточной для реконструкции с заранее заданной точностью оригинальных входных данных. Сигналы скрытого слоя образуют главные компоненты преобразования РСА (англ.: Principal Component Analysis), из которых и образуется информационное ядро [29, 82]. Количество этих компонентов равно числу нейронов скрытого слоя. Большее значение соответствует увеличению объема информации, хранящейся в нейронах скрытого слоя, что в свою очередь обеспечивает лучшее восстановление входной информации в процессе декомпрессии. В примере используется полностью линейная сеть. Веса скрытого слоя в матричной форме обозначаются а выходного слоя

Рис. 4.14. Иллюстрация способа разделения образа на прямоугольные кадры

С учетом однонаправленного распространения сигналов можно получить:

• вектор сигналов скрытого слоя (сжатые сигналы):

• вектор выходных сигналов (сигналы, восстановленные в результате

декомпрессии):

Обучение сети, состоящее в оптимальном подборе весов, образующих матрицы и направлено на то, чтобы разность между для всех составляющих вектора х при обозначено количество векторов) была минимальной. Целевая функция, удовлетворяющая этому условию, может быть определена в виде

Вследствие прямоугольности обеих матриц и аналитического решения этой задачи не существует, а результат процесса минимизации целевой функции (4.38) неоднозначен по отношению к решению, получаемому путем преобразования Карьюнена-Лёве, потому что любые матрицы, представляющие собой линейные трансформации матриц и будут одинаково хорошо отвечать уравнению (4.37).

Поскольку количество нейронов скрытого слоя ограничено, данные, восстановленные в результате декомпрессии (и обозначаемые будут иметь определенную погрешность. Меру этой погрешности определим в форме MSE как

это количество кадров, и - размер кадра соответственно по осям х и размерность вектора данных, составляющих каждый кадр, причем

Важным параметром, характеризующим соотношение количества информации, содержащейся в образе до его компрессии, к количеству информации, описывающей сжатый образ, считается коэффициент компрессии, отражающий отношение исходного и сжатого количества информации и определяемый в виде

где Т и обозначают количество кодируемых битов для данных и весов соответственно. При большом количестве кадров в знаменателе доминирует первый фактор, поэтому формулу расчета коэффициента компрессии можно упростить и представить как отношение количеств входных нейронов и скрытых т.е.Кг=—. Чем больше значение тем больший эффект достигается при хранении или передаче информации. Вместе с тем обучение сети становится все более сложным, и, как правило, в восстановленном образе появляется все больше искажений.

Уровень декомпрессионного искажения чаще всего оценивается коэффициентом PSNR (англ.: Peak Signal-to-Noise Ratio), измеряемым в децибелах и определяемым в виде

где — количество битов, используемых для кодирования градаций интенсивности изображения. При 8-битовом представлении коэффициент PSNR рассчитывается по формуле

Большее значение коэффициента PSNR соответствует лучшему качеству восстановленного изображения. Для достижения наилучших результатов обучения сети, предназначенной для сжатия данных, необходимо в качестве обучающих выборок использовать как можно большее количество различных образов, хотя вполне удовлетворительные показатели дает и обучение на всего лишь одном изображении. После фиксации подобранных значений весов сеть может использоваться в качестве системы кодирования (скрытый слой) либо декодирования (выходной слой) произвольных образов.

На рис. 4.15 а представлен исходный образ "Бабуин", который подвергался вначале кодированию, а затем декодированию с помощью нейронной сети, имеющей по 64 входа и выхода. Приведенное на рис. 4.156 восстановленное изображение получено благодаря пяти скрытым нейронам (коэффициент компрессии около 12). Исходное изображение имело размер пикселов. Сеть была предварительно обучена на другом образе "Лес" [114], имеющем

такие же размеры. Качество восстановленного изображения можно признать удовлетворительным. Значение коэффициента PSNR для восстановленного образа составило 22,83 дБ. Поскольку сравнительный визуальный анализ исходного и реконструированного образов недостаточно объективен, на рис. 4.15 в приведен так называемый дифференциальный образ, подчеркивающий разницу между ними.

Рис. 4.15. (см. скан) Образ "Бабуин", подвергнутый сжатию и декомпрессии с помощью нейронной сети: а) исходный образ; б) реконструированный образ; в) дифференциальный образ

Он демонстрирует фактические погрешности, допущенные нейронной сетью при восстановлении данных.

<< Предыдущий параграф

Следующий параграф >>

Оглавление