§ 1. О задаче обучения машин распознаванию образов

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Глава I. ПРОБЛЕМА ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ (СОДЕРЖАТЕЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ)

§ 1. О задаче обучения машин распознаванию образов

В этой книге рассматривается задача о машинной имитации свойственного человеку умения классифицировать воспринимаемые ощущения.

Человек, воспринимая явления внешнего мира, классифицирует их, т. е. разбивает на классы «похожих», но не тождественных явлений, наделяя каждый класс специальным наименованием. Если иметь в виду зрительные ощущения, то примерами такого рода классов могут служить классы: «мужской портрет», «пейзаж», «рукописная буква а», «кружок», «печатный текст» и т. д. Аналогично, для слуховых ощущений примерами таких классов являются: «звук приближающегося корабля», «свист», «мажорная музыка», «вкрадчивый голос», «женский голос» и т. д. Термины: «запах розы», «запах жилья» — примеры классов ощущения обоняния, а «мягкое», «жесткое», «шершавое», «гладкое» — примеры классов осязательных ощущений.

Рассматривая далее некоторые задачи имитации на машинах подобной способности человека разделять внешние воздействия на классы, мы будем иметь в виду воздействия в весьма широком смысле этого слова: в качестве воздействий будут рассматриваться абстрактные входные возбуждения, заданные, например, наборами чисел или иных символов.

Предположим теперь, что некоторая классификация зрительных восприятий произведена; например, просматривая изображения, человек может выделить среди них «портреты» и «пейзажи». Это значит, что такое выделение этот человек может производить не только по отношению к ранее виденным объектам (в данном примере — изображениям), но и по отношению к объектам,

ранее не виденным. Именно благодаря этому мы умеем читать текст, написанный разными почерками или напечатанный не встречавшимся ранее шрифтом.

Разумеется, не всякое множество объектов человек может воспринимать как класс в указанном выше смысле. Так, например, множество читателей этой книги — вполне определенное множество, но, наблюдая визуально отдельного человека, нельзя сказать, относится ли он к этому множеству. В таких случаях различить, относится ли объект к некоторому классу, можно было бы лишь перечислив все элементы, входящие в класс, и запомнив их. При конечном и небольшом числе элементов в классе это можно сделать (множество «телефоны знакомых, содержащиеся в моей записной книжке» — прекрасный пример такого рода). Тогда при появлении нового объекта для отнесения или неотнесения его к классу можно было бы просто обратиться к памяти и перебрать ее содержимое.

Исключив из рассмотрения этот тривиальный случай, условимся в остальных случаях классификаций подразделять их в зависимости от того, каким способом один человек, выработавший классификацию («учитель»), может передать другому человеку, не знакомому с ней («ученику»), свое умение классифицировать объекты так, чтобы в дальнейшем, наблюдая новые, ранее не виденные объекты, ученик классифицировал их так же, как это сделал бы учитель. Типичный пример передачи такого умения — обучение неграмотного различению букв или цифр.

Можно указать два пути, каким образом умение классифицировать объекты может быть передано от одного человека другому.

Первый путь связан с тем, что учитель не только умеет классифицировать наблюдаемые объекты, но и продумал, как это надо делать применительно к каждому конкретному частному случаю. Зная, какие зрительные восприятия должен будет классифицировать ученик, учитель объясняет ему, как это надо делать, т. е. как бы задает алгоритм классификации. Ученик запоминает этот алгоритм и производит в соответствии с ним распознавание показываемых затем ему зрительных объектов.

Второй путь реализует другой процесс обучения, другую, не понятную нам пока способность живого мозга. Если взять много букв «а» и «б», написанных разными почерками, и ученику, который не знает букв, показывать различные их начертания и говорить лишь «это буква а» и «это буква «б», не сообщая какой-либо информации о том, как надо различать эти буквы друг от друга, то через некоторое время ученик сможет отличать буквы «а» от букв «б», и притом не только те, которые ему показывали ранее, но и все остальные начертания этих букв. Аналогично обстоит дело и в иных случаях: учитель может передать ученику свое умение классифицировать не объяснением правил, а только показом примеров.

Рассмотрим теперь несколько подробнее первый путь обучения классификации.

Для того чтобы учитель мог составить и передать ученику алгоритм классификации, предварительно должен быть выработан язык, одинаково понимаемый учеником и учителем, в терминах которого этот алгоритм может быть записан. Этот язык неизбежно должен содержать набор исходных классификаций, о которых предполагается, что они очевидны, т. е. уже выработаны и притом одинаково у учителя и ученика.

Например, способ различения рукописных букв «а» и «о» можно задать так: эти изображения содержат «кружок» и справа от него «крючок», если «крючок» по длине примерно такой же, как «кружок», то это буква «а», если же «крючок» заметно короче «кружка» и располагается в его верхней части, то это буква «о». На первый взгляд кажется, что это описание просто и понятно. Но это лишь кажущаяся простота — она возникла потому, что у авторов и читателей выработано ранее одинаковое представление о том, что такое «кружок», «крючок», «справа», «заметно короче», «верхняя часть». Если бы потребовалось эту же простую инструкцию передать машине или не обученному ранее человеку, например, ребенку, то возникли бы новые трудности. Можно было бы, например, объяснить, что «кружок» — это замкнутая, несамопересекающаяся кривая, но тогда возникла бы необходимость найти способ объяснить, что такое «кривая», «самопересечение» и т. д. В конечном итоге все равно

оказалось бы необходимым выработать и передать ученику некоторую исходную классификацию, используя для этого второй способ обучения (показом примеров), и лишь после этого для передачи ученику более сложных классификаций оказалось бы возможным пользоваться первым способом обучения. Инструкция (алгоритм, программа), которую учитель при этом составил бы для ученика, содержала бы некоторые логические высказывания в терминах выработанных ранее более простых классификаций. Так, в приведенном выше примере такими высказываниями являются:

«есть кружок»,

«справа от кружка есть крючок»,

«кружок заметно длиннее крючка»,

«крючок расположен в верхней части кружка» и т. д.

Каждое из утверждений подобного рода — их называют признаками — может быть верным или ложным, и инструкция распознавания указывает, при каких сочетаниях правильности или ложности таких утверждений верно, что «это буква а» или «это буква о». В этом смысле инструкция распознавания есть логическая функция, а признаки играют роль логических переменных.

Таким образом, первый способ обучения (передачей правил) не исключает второго способа обучения (демонстрацией примеров), а дополняет его, используя некоторый язык, «слова» которого «вырабатываются» с помощью демонстрации примеров. Вопросы формирования такого языка и реализации его в машинах — самостоятельная и сложная задача (см. § 3). Если же такой язык уже каким-либо способом выработан, и слова этого языка хорошо понятны и учителю, и ученику, то реализация первого способа обучения является принципиально простой формально-логической задачей, легко «усваиваемой» вычислительной машиной. Поэтому первый способ обучения не рассматривается в настоящей книге, и проблемой, которая обсуждается в книге, является проблема обучения по второму методу — показом примеров.

Классы объектов, которые можно научиться различать по второму методу, т. е. наблюдая лишь примеры объектов, принадлежащих классу, условно называются далее образами; объекты, множество которых составляет образ — элементами, а задачи классификаций в таких случаях — задачей распознавания образов.

Теперь можно подробнее пояснить постановку проблемы обучения машины распознаванию образов, используя в качестве примера случай классификации изображений.

Рассмотрим множество изображений, которые человек («учитель») может разделить на два класса, например, бесконечное множество написанных разными почерками букв а и о.

Представим себе, что имеется фотополе, составленное из большого количества фотоэлементов (рис. 1). На фотополе проецируются изображения — элементы образов «буква а» и «буква о».

Рис. 1.

При каждой проекции с выхода каждого фотоэлемента снимается ток определенной силы. От каждого фотоэлемента подведены провода к устройству, которое мы называем машиной.

В процессе обучения из всего бесчисленного количества начертаний букв «а» и «о» случайно отбираются несколько и показываются машине проецированием на фотополе. При каждом показе машине сообщается, показали ли букву «а» или «о». После того как будут показаны все отобранные буквы, процесс обучения машины заканчивается и начинается процесс, который условно называют экзаменом. Во время экзамена на фотополе проецируют различные иные, ранее не использовавшиеся начертания букв «а» и «о». Машина каким-либо условным сигналом, например, включением соответствующего

табло, дает ответ на вопрос: «Что это такое?» Будем говорить, что мы воспроизвели процесс обучения, если машина в подавляющем большинстве случаев дает правильные ответы.

Требуется, чтобы, ничего не меняя в схеме машины или в ее программе, можно было повторить этот же опыт с новыми образами. Например, чтобы можно было машину, обученную распознаванию букв «а» и «о», этим же процессом, ничего не меняя в ее программе, переучить распознаванию кружков и треугольников либо научить ее различать мужские и женские портреты и т. д. Это последнее условие наиболее существенно — оно косвенно предполагает, в частности, что в программу не заложены в какой-либо форме набор признаков и построенная на них логика распознавания, т. е. что программа обучения достаточно универсальна.

Всюду ранее мы предполагали, что учитель умеет точно классифицировать показанные объекты, т. е. что если один и тот же элемент будет показан ему несколько раз, то он каждый раз безошибочно отнесет его к одному и тому же образу. На практике часто возникает иная ситуация. Например, просматривая начертания букв, показанных на рис. 2, мы некоторые из них безошибочно отнесем к «а», некоторые — к «о», а в отношении ряда других начертаний столь четкий ответ невозможен — одно и то же начертание может быть отнесено один раз к «а», а другой раз к «о». В таких ситуациях во всяком случае можно предположить, что для каждого изображения объективно существует вероятность того, что оно является элементом некоторого образа — в нашем примере степень достоверности того, что показанные буквы «есть а» или «есть о».

Рис. 2.

В таких случаях в ходе обучения учитель относит показанное изображение к тому или иному образу с этой объективно существующей вероятностью. Если, например, вероятность того, что буква, подчеркнутая на рис. 2, есть «а», равна 0,7, а того, что она «о» - 0,3, и если в ходе обучения среди показанных начертаний букв «а»

и «о» это начертание встретится 100 раз, то примерно 70 раз учитель сообщит машине, что это «а» и примерно 30 раз, что это «о». В результате обучения машины в этом случае должна быть восстановлена вероятность для любого начертания быть буквой «а» или буквой «о». В процессе экзамена при показе какого-либо начертания буквы, все равно, использовалось оно в ходе обучения или нет, машина определяет вероятность того, что это буква «а» или «о», и эта определенная машиной вероятность должна быть близка той, с которой учитель относил бы к «а» или «о» это же начертание. Такую постановку задачи обучения машины распознаванию образов называют вероятностной, в отличие от детерминистской постановки, о которой речь шла ранее.

Как при детерминистской, так и при вероятностной постановке задачи предполагается, что в процессе обучения машины активно участвует учитель, который сообщает машине свое решение об отнесении показанных элементов к тому или иному образу, и эта информация используется программой.

Рассмотрим теперь имитацию иного процесса познания, свойственного человеку — умение обнаруживать «схожесть» без активного участия учителя. Если, например, ребенку, не умеющему читать, показать много различных изображений букв «а» и «о» примерно одинакового размера и попросить его разделить эти изображения на две «кучки» так, чтобы в каждой кучке оказались похожие изображения, то ребенок разделит их. Эта способность мозга без информации учителя обнаруживать и классифицировать объекты по «схожести» широко используется в психологических тестах.

Рассмотрим теперь следующий эксперимент. На фотополе машины (см. рис. 1) проецируются отобранные некоторым случайным образом изображения, которые человек отнес бы к двум разным образам, например, различные начертания букв «а» и «о». Никакой информации о том, к каким образам относятся показанные точки, ни даже о том, сколько различных образов представлено в показываемых изображениях, машине не сообщается. В программе машины не содержится в какой-либо форме список ранее установленных более простых образов

(исходный словарь или признаки), способы обнаруживать их и логика действия с ними. Машина реагирует на показ каждого изображения выдачей на выходе различных символов.

Если по мере увеличения числа показанных изображений машина с все увеличивающейся достоверностью выдает одинаковые символы при появлении изображений, которые человек отнес бы к одному и тому же образу, то мы будем говорить, что в машине реализуется процесс самообучения или обучения без учителя.

Выше разъяснялся содержательный смысл задачи об обучении машин классификации входных ситуаций, но вопрос о том, почему важна и интересна задача такого рода, не обсуждался. Теперь, когда смысл задачи выяснен, естественно затронуть вопрос и о ее значимости.

Задача об обучении или самообучении машины разделению объектов на классы интересна как с прикладной, так и принципиальной точки зрения.

С прикладной точки зрения решение этой задачи важно прежде всего потому, что оно позволяет автоматизировать многие процессы, которые до сих пор мы связывали лишь с деятельностью живого мозга. Так, например, медицинская диагностика, т. е. установление болезни по информации о ходе болезни и данным обследования — типичный пример такого рода. Другие примеры — классификация данных сейсмической разведки или электрокаротажа, предсказание погоды по метеорологическим данным, установление неисправностей машин по внешним, нечетким, «размытым» наблюдениям за их работой и т. д. Более того, задача о классификации ситуаций неизбежно возникает всегда, когда количество действий, которые может производить автомат, значительно меньше числа ситуаций, которые могут возникнуть на его входе (например, если число действий автомата конечно, а число входных ситуаций бесконечно). В таких случаях автомат должен прежде всего классифицировать

ситуации так, чтобы каждое выходное действие автомата являлось реакцией на появление на входе ситуации из определенного класса. В этом смысле задача классификации — одна из центральных задач автоматики в целом.

Принципиальное значение задачи распознавания образов тесно связано с вопросом, который все более настойчиво возникает в связи с развитием идей кибернетики: что «может» и что принципиально «не может» делать машина? В какой мере возможности машин могут быть приближены к возможностям живого мозга?

Ответы на эти вопросы возможны лишь в том случае, если они будут поставлены в точных терминах, и характер ответов зависит прежде всего от того, каким образом классифицировать возможности мозга. Можно, в частности, все, что может «делать» мозг, подразделять в зависимости от того, каким образом один человек может передать это «умение» другому. Если оставить в стороне те «умения», которые вообще не могут быть переданы от одного человека к другому, то все остальные «умения» можно подразделить на два класса:

1) «умения», которыми человек не только владеет, но и понимает, как он это делает, и поэтому может составить алгоритм (программу) и передать ее другому;

2) «умения», в отношении которых человек не понимает, как он это делает, и поэтому не может составить алгоритма, а может лишь демонстрировать примеры.

При передаче «умений» первого класса от человека к машине принципиальных трудностей не возникает. Поэтому решение задачи о передаче от человека к машине умений второго класса имело бы принципиальное значение в отношении приближения возможностей машин к возможностям мозга. Разумеется, частная задача об обучении классификации не решает этой задачи в целом — ведь ко второму классу относятся «умения», связь которых с классификацией внешних ситуаций неочевидна.

Но решение задачи об обучении машин классификации объектов — важный шаг вперед в решении всей задачи о передаче от человека к машине «умений» второго класса.

Выше, разъясняя содержательную постановку задачи и ее значимость, мы позволили себе с легкостью оперировать физиологическими и психологическими терминами, такими как «мозг», «восприятие», «умение» и т. д. Далее нас будут интересовать лишь методы решения на вычислительных машинах указанных задач и проистекающие отсюда математические вопросы. Разумеется, мы не ставим себе целью понять, как в действительности происходят подобные процессы в живых организмах, а значит, и смоделировать их. Поэтому авторы предостерегают читателя от попыток придать физиологическую или психологическую значимость методам, излагаемым далее в этой книге.

<< Предыдущий параграф

Следующий параграф >>

Оглавление