Глава 13 МАШИННОЕ ВОСПРИЯТИЕ

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Часть IV. ПОНИМАНИЕ

Глава 13 МАШИННОЕ ВОСПРИЯТИЕ

13.0. Проблема восприятия

В качестве слуг человека ЭВМ имеют бесспорные недостатки, из которых наиболее неприятен тот, что хозяевам приходится разговаривать на языке своих слуг. Люди должны переводить свое понимание хаотического и неоднозначного окружающего их физического мира в строго организованные последовательности входных данных. Более того, человек вынужден писать указания машинам на неестественных языках, вроде Фортрана или Алгола, вместо легко понимаемых, хотя и неоднозначных, английском или русском. Древние римляне требовали, чтобы их греческие рабы разговаривали по латыни. Мы по сравнению с ними, по-видимому, сдали позиции.

Необходима машина с большими возможностями, которая могла бы понимать окружающий ее физический мир так же свободно, как и люди. Имеются два аспекта этой проблемы: машинное восприятие и машинное понимание. Не совсем еще ясно, где проходит граница между ними. В общих чертах при восприятии чувствующее существо организует свои ощущения физического мира в образы и формирует свое внутреннее представление внешнего мира, которое описывает „важные" отношения между этими образами. При понимании имеющееся внутреннее представление используется для получения некоторого выходного сообщения. Необходимые для этого действия могут включать сравнение своего внутреннего представления окружающего мира с реальными или воображаемыми мирами.

Человек узнает об окружающем физическом мире посредством своих пяти чувств: зрения, слуха, осязания, обоняния и вкуса. Зрение и слух являются наиболее важными каналами, и только они и рассматривались серьезно как возможные средства получения машинами информации. Создание ЭВМ, способной видеть и слышать, оказалось очень сложной задачей. И ни водной из попыток машинное

восприятие даже отдаленно не приближается к человеческому. Машинный анализ изображений ограничивался либо классификацией фотографий, что фактически больше представляет собой специализированную задачу распознавания образов (Розенфельд, 1969а, б) и не будет здесь рассматриваться, либо анализом очень простых сцен, вроде тех, что можно построить на столе из детских кубиков. Проблемы, связанные со зрительным восприятием, в самом деле, трудно разрешимы.

Рис. 13.1. Неоднозначность, возникающая при рассмотрении прямоугольного объекта под углом Рисунок также иллюстрирует, как трехмерная сцена проектируется на двумерную плоскость изображения: а — плоскость изображения; б — получаемое на этой плоскости изображение.

Машинное восприятие речи почти так же малоуспешно. Наши успехи в этой области сегодня лишь незначительно напоминают то, что обычно показывают в научно-фантастических фильмах, рассказывающих об ЭВМ, исследующих джунгли или ремонтирующих космические корабли.

Причина, по которой машинное восприятие столь ограничено, совсем проста. Изображение на сетчатке неоднозначно представляет внешний физический мир. Вообразим наблюдателя, разглядывающего из окна прямоугольную печную трубу, расположенную под углом к линии зрения (рис. 13.1, а). Ретинальный образ на задней стороне глазного яблока имеет форму трапеции, „лежащей на боку“ (рис. 13.1, б). Наблюдатель обрабатывает и правильно интерпретирует зрительный сигнал как прямоугольник, на который смотрят под углом к его плоскости, поскольку наблюдатель „знает", что в

Западной Европе печные трубы обычно имеют характерную прямоугольную форму. Суть в том, что входная визуальная информация должна интерпретироваться в терминах того, что мы знаем о мире.

Похожие явления можно наблюдать при восприятии звуковых сигналов. Каждый водитель может узнать звук сирены автомобиля скорой помощи, движущегося навстречу (при этом высота и амплитуда звукового сигнала увеличиваются) или движущегося от него (при этом высота и амплитуда звукового сигнала уменьшаются). Воспринимаемый звуковой сигнал интерпретируется на основе предположения, что движущийся автомобиль издает постоянный сигнал. Такой же меняющийся звук мог бы производиться стационарным источником, но мы „знаем", что в данном случае этого не может быть. И снова наше знание окружающего физического мира используется для построения разумной интерпретации человеческих ощущений. Многие психологи считают главной чертой всего восприятия нашу способность находить определенные внутренние модели, позволяющие реконструировать полученный сигнал. Но как запрограммировать такой процесс в вычислительной машине? Это удастся сделать, только если будет найден способ хорошего представления внешнего мира в машине.

<< Предыдущий параграф

Следующий параграф >>

Оглавление