1.2. Распознавание образов

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

1.2. Распознавание образов

Быть может, это и верно, что любой объект является единственным в своем роде, но жизнь была бы невозможна, если бы мы относились к этой мысли слишком серьезно. Для многих целей мы находим удобным считать уникальные существа типичными: типичным персоналом станций обслуживания, типичными лифтерами или сборщиками налогов. Мы применяем знания характеристик общего класса для определения наших действий в конкретном случае, однако во избежание неприятностей следует научиться правильно проводить классификации. Именно эту способность предлагалось считать основой разумного поведения (Боурн, 1966; Брунер, Гуднау и Остин, 1956; Гилфорд, 1967; Хант, 1962). Для людей осуществление весьма тонких классификаций — такое обыденное дело, что мы не осознаем, насколько впечатляющ этот процесс. Мужчина,

вернувшись домой, сразу узнает свою жену, ребенка, собаку. Очевидно, различия между тем, как жена и тем более собака выглядели утром и вечером, незначительны, но именно в них суть дела. Как мы определим для ЭВМ, какое изменение образа несущественно, а какое потребует новой классификации?

В своей важной ранней работе Селфридж (1959) предложил осуществлять распознавание образов вычислением взвешенной суммы ряда „рекомендованных" классификаций, каждая из которых основана на различных характеристиках распознаваемого объекта (признаках). Хотя индивидуальные рекомендации могут носить почти случайный характер, система в целом может быть достаточно точной. Развитие этой идеи ведет к параллельному методу распознавания образов. Можно считать, что каждый объект имеет простейшее описание, представляемое вектором, элементы которого служат аргументами для ряда функций, и значения этих функций уже сосчитаны. Они в свою очередь служат аргументами для некоторой решающей функции, которая определяет окончательную классификацию.

Это описание, не отражающее полностью идей Селфриджа, представляет распознавание образов как задачу классификации векторов, или точек в -мерном пространстве. В монографии Себестиана (1962), связывающей задачи распознавания образов с математической теорией решений, и в блестящем обзоре Мейзела (1972) методов распознавания образов этому подходу была придана более явная форма. Указанные аспекты распознавания образов тесно связаны с классическими статистическими методами многомерного анализа (Андерсон, 1958; Тацуока, 1971).

К проблеме распознавания образов можно подходить также, отталкиваясь от аналогии с биологическими процессами. В некоторых условиях способности животных к распознаванию образов превышают способности любой машины, которую только можно построить. Для простоты мы рассмотрим лишь человеческие способности. При классификации, основанной на непосредственном сенсорном опыте, т. е. при распознавании лиц или произнесенных слов, люди легко превосходят технические устройства. В „несенсорных" ситуациях действия людей на столь эффективны. Например, люди не могут соперничать с программами классификации образов, если правильный способ классификации включает логические комбинации абстрактных свойств, таких, как цвет, размер и форма (Хант, Марин и Стоун, 1966). Проблему осложняет то обстоятельство, что в этих ситуациях не ясно, по какой причине люди действуют нестабильно (т. е. очень хорошо или очень плохо). Какой тип распознавания образов используется в рассуждениях по аналогии? Этот вопрос представляет большой интерес.

Поскольку распознавание образов должно быть функцией нейронов животного, можно искать ключ к биологическому

распознаванию образов в свойствах самого нейрона. Для многих целей нейрон можно рассматривать как пороговый элемент. Это значит, что он либо дает на выходе некоторую постоянную величину, если сумма его входов достигает определенного значения, либо же остается пассивным. Мак-Каллок и Питтс (1943) доказали, что любую вычислимую функцию можно реализовать с помощью должным образом организованной сети идеальных нейронов — пороговых элементов, логические свойства которых с достаточным основанием можно приписать реальному нейрону. Проблема состоит в том, можно ли найти какой-то разумный принцип реорганизации сети, позволяющий случайно объединенной вначале группе идеальных нейронов самоорганизоваться в „вычислительное устройство", способное решать произвольную задачу распознавания образов. Такой принцип реорганизации явился бы теорией обучения, применимой на уровне отдельного нейрона. Интуитивно ясно, что такой принцип должен существовать, поскольку можно видеть, что животные действительно обучаются новым правилам классификации и смешно было бы полагать, что в них с рождения „запаяны" все классификации, которым можно обучиться.

Нейрологическая теория обучения, выдвинутая канадским психологом Хеббом (1948), хотя и была рассчитана вначале на использование в качестве модели, предназначенной только для психологии, оказала большое влияние на искусственный интеллект. Ее модификация применялась при определении принципов системы распознавания образов, получившей название персептрон (Розенблатт, 1958, 1962). Персептрон, или, точнее, персептроны (ибо то, что описал Розенблатт, было скорее принципом построения программ, нежели единственной программой) существуют и в форме программ, и как специально сконструированные аналоговые вычислительные машины. Значительные усилия были направлены на анализ общего класса систем распознавания образов, которые представляют персептроны. Были развиты понятия систем линейного распознавания образов и систем пороговой логики. Первый термин относится к методу объединения индивидуальных решений распознающих элементов, соответствующих различным характеристикам, а второй — к использованию устройств, вырабатывающих постоянный сигнал,

если уровень их входных сигналов превышает некоторую фиксированную величину. Была разработана содержательная математическая теория (Нильсон, 1965а), вершиной которой является анализ круга задач, решаемых с применением линейных пороговых логических систем (Минский, Пейперт, 1969).

В работах с персептронами основное внимание уделяется установке весов, приписываемых фиксированному множеству детекторов признаков. Это совпадает с формулировкой задачи, данной Селфриджем. Альтернативный метод распознавания образов сводится к поиску „хороших" признаков, которые так четко проводят разделение между классами, что определение подходящего правила приписывания весов признакам не представляет труда. Этому подходу уделялось большое внимание в ряде исследовательских проектов, в особенности руководимых Уром и его сотрудниками (Ур, 1965; Ур и Восллер, 1963), и в советской литературе (Бонгард, 1967). Последние статьи в журнале Pattern Recognition свидетельствуют, что все большее значение придается обнаружению признаков, нежели определению их весов.

Системы распознавания образов, упоминавшиеся до сих пор, представляют собой по меньшей мере аналоги биологического распознавания образов. В биологии термин „распознавание образов" неявно относят к классификации на сенсорном уровне. Это проявляется в постоянном обращении к зрительным примерам распознавания образов. Психологи употребляют термин „обучение понятиям" по отношению к задаче, которая математически совпадает с задачей распознавания образов, но отличается от нее в психологическом аспекте. Эту разницу легко проиллюстрировать следующим примером. Вообразим, что написана программа, различающая изображения мужчин и женщин. Что в этом случае означает „показать изображение вычислительной машине"? Это значит, что полутоновые оттенки небольших участков изображения каким-то способом закодированы в числах и полученный вектор взят в качестве входа для программы распознавания образов. Очень простой пример приведен на рис. 1.1.

Программа, далее, должна классифицировать уже векторы, а не изображения. Можно противопоставить ее программе, применяемой для классификации животных по их виду и роду. Обучение происходило бы путем сообщения программе описаний животных и правильного указания их вида и рода. На элементарном уровне программа считывала бы множество признаков, описывающих животное, и сводила бы их к упорядоченному множеству кодов. Программа распознавания образов и в этом случае классифицировала бы векторы. Поскольку эти задачи эквивалентны на машинном уровне, видимо, было бы разумным, чтобы для вывода правил классификации образов в обоих случаях применялась одна и та же программа. Однако, если мы думаем о том, как человек мог бы осуществлять

обучение этим задачам, нам кажется, что восприятие и познание могут как-то различаться.

Те ученые, которые больше интересуются познавательной стороной задач распознавания образов, фактически разработали алгоритмы, заметно отличающиеся от полученных теми исследователями, кто при решении этой проблемы начинал с сенсорного уровня. Вместо проведения ряда параллельных опытов и оценивания общих результатов, в алгоритмах логической классификации, как правило, начинают с небольшого числа опытов и в зависимости от их результатов либо проводят второй тест, либо выполняют классификацию объекта.

Рис. 1.1. Простой пример того, как изображение кодируется в вектор для задачи распознавания образов. Большой прямоугольник разбивается на четыре квадранта. Если верхний левый квадрант заштрихован, то первая компонента вектора равна 1, в противном случае — 0. Такие же правила применяются и к другим квадрантам и компонентам вектора.

Характер второго теста может зависеть от результатов первого. Этот процесс, очевидно, можно распространить на любое число тестов. Правила классификации такого рода называются последовательными процедурами принятия решений. До последнего времени эти методы мало освещались в литературе по искусственному интеллекту, хотя такие же процедуры изучены подробно в статистике и исследовании операций. Интересно отметить, что по крайней мере в одном случае, когда подход к логическому распознаванию образов был осуществлен с чисто статистических позиций (Морган и Сонквист, 1963), полученные алгоритмы вычисления были очень похожи на те, что появились после независимо выполненной работы Ханта, Марина и Стоуна (1966) в области искусственного интеллекта. В последние несколько лет в литературе по распознаванию образов все большее значение придается последовательным процедурам (Фу, 1969а).

Очень может быть, что зрение человека — наиболее тонкая среди существующих систем распознавания образов. Очевидно, что вычислительная машина должна иметь возможность рассматривать зрительную сцену и анализировать ее так, как это делает человек. В большинстве научно-фантастических телевизионных сценариев считается, что для вычислительных машин будущего это станет обычным делом. В действительности же проблема машинного зрения представляет собой ряд очень трудных задач. Анализ зрительных сцен оказывается в сущности невозможным, если анализирующее устройство не содержит логическую модель наблюдаемой сцены, позволяющую разрешать неоднозначности изображений на входе. Это заключение едва ли будет неожиданным для психологов, которые занимались константностью восприятия и иллюзиями, и не удивительно, что некоторые предложения о том, как ЭВМ должна обрабатывать зрительные данные, заимствованы из современных исследований по зрению человека. Точно так же стремление наделить вычислительную машину глазами вызвало идеи, которые могли бы использоваться при создании теорий человеческого зрения, хотя характер этого соответствия не совсем ясен (Вейсстейн, 1969). В настоящее время мы в состоянии дать лишь беглый обзор этой быстро меняющейся области, основные методы которой, возможно, еще не сформировались.

<< Предыдущий параграф

Следующий параграф >>

Оглавление