Пред.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.10. ОБНАРУЖЕНИЕ И ИСПРАВЛЕНИЕ ОШИБОК РАСПОЗНАВАНИЯПри любом способе распознавания, даже самом совершенном, возникают ошибки хотя бы потому, что распознающее устройство довольно сложная система, содержащая тысячи элементов, отказы компонентой или соединений в которой неизбежны. Однако при обработке осмысленного текста естественная избыточность языка позволяет нам беспрепятственно разбирать написанное непонятным почерком письмо или переданную с ошибками телеграмму. По имеющимся в настоящее время данным избыточности всех европейских языков примерно равны и составляют 70—80%. Это значит, что использование структурных свойств языка может доставить недостающую или потерянную за счет ошибок распознавания информацию. Наиболее простой способ использования закономерностей языка состоит в учете статистики отдельных букв, двубуквенных (диграмм) и многобуквенных сочетаний (р-грамм) в словах. Реализация этого способа в ЭВМ принципиальных трудностей не вызывает: если машина не может достоверно распознавать, какая из двух букв Использование ЭВМ для решения поставленной задачи открывает возможности для моделирования работы человека при чтении письма, написанного неразборчивым почерком. К сожалению, трудно точно указать, какие именно знания использует человек при корректировке текста, но важнейшими элементами этих знаний безусловно являются словарь языка, морфология, синтаксис, семантика Ясно, что если мы хотим создать программу для ЭВМ, моделирующую работу человека-корректора, то эти четыре элемента должны быть в ее основе. Построение такой программы — чрезвычайно сложное дело из-за сложности проблемы автоматизации синтаксического и семантического анализа. Более реальным является использование только словаря и морфологии языка. Будем считать, что при считывании и распознавании слово из «Л», то получится слово «ЛОРОГА», которого в словаре нет. На одну букву от «ЛОРОГА» отличаются, по крайней мере, два слова словаря «ДОРОГА» и «ПОРОГА». Правильный выбор может быть сделай в данном случае либо путем привлечения методов синтаксического анализа и семантики, лйбо из частотных соображений: буква «Д» примерно на 10% более вероятна в русском языке, чем буква «П» Однако, необходимо иметь в виду, что при считывании слова «ПОРОГА» также возможна замена буквы «П» на «Л», и в этом случае буквенный частотный критерий приведет к ошибке. Приведенный пример показывает, что использование только словаря не позволяет исправлять всех ошибок распознавания, однако, как будет показано ниже, значительная их часть может быть исправлена таким путем. В Пользу словарного метода коррекции, при его удачной реализации, говорит также тот факт, что он является первым необходимым этапом на пути создании более совершенных методов, использующих синтаксис и, возможно, семантику. Прежде чем перейти к детальному описанию словарного метода коррекции, рассмотрим способ наиболее экономного представлении словаря в памяти ЭВМ. С проблемой подобного рода лингвисты столкнулись при машинном переводе. В данном случае задача менее сложная, поскольку для словарной коррекции несущественно, какой частью речи является слово, в какой форме оно находится (род, число, лицо, падеж и т. д.), а кроме того, отсутствует необходимость поиска эквивалента слову одного языка в словаре другого. Проблема состоит в том, чтобы при минимальном объеме ЗУ представить в ЭВМ возможно большее число слов. Например, существительное и прилагательное в русском языке имеют два числа и шесть падежей, аналогичная картина наблюдается у глаголов, поэтому, если каждому слову читаемого текста непосредственно сопоставлять слово словаря, то объем словаря увеличивается в 5—7 раз по сравнению со словарем основных форм. В дальнейшем изложении нам потребуется ряд понятий, принятых в лингвистике. Словоформой называется отрезок текста между двумя соседними пробелами Морфемой называется часть словоформы. Все морфемы будем делить на основы и окончания, которые задаются своими списками. Списки (словарь) морфем определяются конструктором системы, и используемые нами окончания и основы далеко не всегда совпадают с их лингвистическими определениями. Процесс построения «словаря целесообразно организовать следующим образом: сначала задаться списком окончаний, а затем выделять основы. В табл. 3.7 приведен список используемых окончаний, все они разбиты на групшы. В группу включены окончания, совместимые с одной и той же основой. Например, в десятой группе находятся окончания, сочетающиеся с основами реч-, печ-, ноч-, и т. д. Процедура получения основ реализуется автоматически: в ЭВМ вводится список упорядоченных по числу букв окончаний и достаточно длинный текст, относящийся к выбранной отрасли знаний. В каждом слове текста отбрасывается окончание, причем поскольку окончания упорядочены так, что сначала идут более длинные из них, то возможность неполного отбрасывания окончания исключается Ясно, что термин «основа» к полученному остатку может применяться лишь условно, так как многие из остатков основами не являются. Например, в слове «дом» основа условно состоит из одной буквы «д», поскольку окончание — «ом» будет отброшено. Чтобы не искажать основы коротких слов, условимся в словах, состоящих из трех и Таблица 3.7. Группы окончаний (см. скан) Окончаний табл. 3.7 (см. скан) нее букв, окончания не отбрасывать. Это ограничение особенно важно для коррекции предлогов. Каждая основа снабжается меткой, указывающей группу окончаний, совместимую с этой основой. Необходимо подчеркнуть, что при ограниченном объеме ЗУ, которым располагают мини-ЭВМ, целесообразно строить специализированные словари, ориентирующиеся на коррекцию текстов определенного профиля, скажем газетный словарь, деловой, научно-технический и т. д. Однако, если ЭВМ сиайжена мощной дисковой памятью, то для нее можно создать и более универсальные словари. Будем различать два случая автоматической коррекции: коррекция ошибок распозиавания, коррекция отказов. При коррекции ошибок ничего не известно об их местонахождении, поэтому единственный путь обнаружения — сравнение каждого считанного слова со словами словаря. Если полученная после отбрасывания окончания основа не найдена в словаре, то возможны три варианта: в основе есть ошибки; из-за ошибки в слове неверно отброшено окончание, в результате чего получилась основа с другим числом букв; данной основы нет в словаре. С учетом этих ситуаций и построена граф-схема алгоритма (рис 3 25). Сначала ищем в словаре основу, отличающуюся от данной на одну, две или максимум три буквы, поскольку предполагается, что в основе не более трех ошибок. Еслн такай основа одна, то она берется за правильную основу, к ней присоединяется отброшенное окончание, и на этом процесс заканчивается. Если же основа не одна, то необходимо выбрать одну из них. Алгоритм выбора состоит в следующем. Учитывая метки групп окончаний, отбрасываем основы, не совместимые с данным окончанием. Выбор одной из оставшихся основ (если их не одна) осуществляется из статистических соображений. В процессе оценки надежности распознавания строится квадратная матрица (D), в которой каждому символу распознаваемого алфавита В ставятся в соответствие строка и столбец Элементу матрицы, стоящему на пересечении t-й строки в (см. скан) Рис. 3.25. Структурная схема алгоритма словарной коррекции ошибок распознавания матрицы определяют вероятности правильного распознавания символов алфавита. Пусть основа считанного слова Пусть слова Если словарь содержит все считываемые слова, то можно считать, что ошибочно считанное слово Пример. В процессе считывания слова получилось следующее сочетание букв: ХЛИГА. После отсечения окончания получаем основу ХЛИГ. В словаре основ длиной в четыре буквы этого слова нет. Ищем основу из четырех букв, отличающуюся на одну, две или три буквы. Основ, отличающихся на одну букву, также в словаре нет; на две буквы отличаются следующие основы: ХЛЕБ, ХЛОР, ХЛОП, СЛУГ, СЛОГ, СЛИВ, ВЛИВ, ПЛИТ, КНИГ, КЛИН, ДВИГ, ПЛУГ. Поскольку слово ХЛИГА имеет окончание -А, то основы ХЛОП, ВЛИВ, ДВИГ не совместимы с этим окончанием и должны быть отброшены. Выбор одной Если же в словаре основ не находится ни одной основы, отличающейся на букв, то либо из-за ошибки в окончании оно было отсечено неверно, либо слова нет в словаре. Поэтому последовательно буква за буквой отсекают последние буквы слова и для полученного остатка ищут подходящую основу в словаре основ. Если при отсечении последовательно от одной до пяти букв (наибольшая длина окончания в табл. 3.7 равна пяти) и соответствующем потоке отличающийся на минимальное число букв основы не найдется таковой при Рассмотрим случай отказа от распознавания. Большинство методов при отказе от распознавания обеспечивают (или могут обеспечить при соответствующей модификации) выдачу совокупности букв, выбор из которых распознающее устройство затрудняется сделать. Если эта совокупность букв, которую мы обозначим через Таблица 3.8 (см. скан) Таблица 3.9 (см. скан) место в слове и применяем алгоритм поиска ошибок. Ясно, что если совокупность Если в слове несколько отказов с совокупностями букв Пример. Рассмотрим две фразы, считанные устройством, средняя вероятность ошибки или сбоя которого составляет 0,1.
Ошибочные буквы подчеркнуты, места отказов обозначены скобками. Пусть
В данном примере из 16 допущенных ошибок были обнаружены две, не обнаружено три и скорректированы 11 ошибок и отказов. Эксперименты над теистами показали, что данный алгоритм позволяет обнаружить и исправить до 90% ошибок, из них примерно 80% автоматически исправляются, а остальные 10% лишь обнаруживаются. При этом слово с обнаруженной ошибкой выдается на печать со словами, стоящими слева и справа. Примеры работы алгоритма приведены в табл. 3 8, 3.9. Каждый текст приводится в трех редакциях первоначальный текст без искажений: тот же текст со случайным образом внесенными ошибками (ошибки составляют в среднем 10% букв); текст после автоматического обнаружения и исправления ошибок.
|
1 |
Оглавление
|