Предисловие

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Предисловие

Машинное зрение — молодая и быстро развивающаяся область знаний, о которой увлекательно писать, но трудно определить, на каком материале остановиться, поскольку новые результаты появляются очень часто. Эта книга — результат переработки базового курса 6.801 «Машинное зрение», который я читал в Массачусетском технологическом институте (МТИ) в течение 10 лет. Первый вариант книги использовался в течение 5 лет. Упражнения в основном представляют собой домашние задания и экзаменационные вопросы. Курс полуфакультативный, поскольку студенты могли выбрать и какой-либо другой курс, относящийся к области искусственного интеллекта. Большинство студентов, посещавших курс, делали это на первом году своего обучения. Некоторые главы книги использовались также при чтении ускоренного однонедельного летнего курса по робототехнике для сотрудников других университетов и специалистов в области промышленности.

Десять лет назад допускалось объединение в одном термине понятий «движение роботов» и «машинное зрение». Однако знания в обеих областях накапливались столь стремительно, что в настоящее время их необходимо рассматривать раздельно. В частности, вторая половина первоначального курса была дополнена Томасом Лозано-Пересом и оформилась в курс 6.802 «Движение роботов». В действительности даже ныне принятый термин оказывается слишком малоемким, чтобы отразить все интересные аспекты, касающиеся машинного зрения.

Интенсивное развитие этой области сделало возможным сократить обзор менее значимых вопросов. Что касается второстепенных тем, то их выбор в некоторой степени есть дело вкуса, и эта книга отражает мои личные симпатии. Иначе и не может быть, поскольку более подробное изложение наработанного в области машинного зрения заняло бы гораздо больше места и не уложилось бы в ясное и последовательное изложение темы. Материал, которой не опирался на солидную теоретическую базу, был опущен.

Аналогично в книгу не вошли подходы, имеющие право на существование благодаря поддержке новейшего математического аппарата, но не ведущие к практически полезным методам извлечения информации из изображений. Вместо этого книга содержит материал, который может оказаться полезным инженерам, использующим методы

машинного зрения применительно к «реальной жизни». Например, главы, посвященные обработке бинарных изображений, помогают понять и объяснить, как улучшить многие доступные в настоящее время серийные устройства. По материалу, относящемуся к стереофотометрии и расширенному сферическому образу, можно судить о том, к чему может привести очередной скачок во внедрении результатов исследований в этих областях.

Конкретные подходы и алгоритмы не всегда приводятся во всех деталях. Хорошая реализация зависит от конкретных характеристик доступных вычислительных систем, и их рассмотрение увело бы в сторону от основной темы книги. Кроме того, я считаю, что, прежде чем думать о реализации, необходимо решить основную задачу, связанную с машинным зрением. В большинстве случаев реализация сводится к более или менее непосредственному применению классических методов численного анализа. Тем не менее детали, касающиеся эффективной как программной, так и аппаратной реализации, включены, например, в главы, посвященные обработке бинарных изображений.

Буквально с самого начала курс привлек внимание аспирантов, которые чувствовали потребность ознакомиться с новой областью. Для удовлетворения их более изощренных математических запросов в него был включен соответствующий материал, который необходимо исключить из курсов, предназначенных для разношерстной аудитории, поскольку трудно одновременно закладывать математический фундамент и сообщать всю необходимую информацию. Такое исключение не должно вызывать затруднений, поскольку ряд тем можно излагать по существу независимо от остальных. Отметим, кстати, что основная часть используемого математического аппарата приводится в приложении к книге.

Несмотря на то что некоторые главы естественным образом объединяются в пары (3 и 4, 6 и 7, 10 и 11, 12 и 17, 16 и 18), на самом деле они слабо связаны друг с другом. Студенты с недостаточным знанием теории линейных систем могут пропустить разделы по обработке изображений (гл. 6, 7 и, возможно, 9). Аналогично без ущерба для понимания можно также опустить главы, посвященные меняющимся во времени изображениям (гл. 12 и 17). Ряд глав содержит мепее изученный материал по сравнению с другими главами. Поэтому если исключить и его, то основной курс составят гл. 1—4, 10, 11, 16 и 18. Здесь уже не должно быть проблемы связать эти главы единой тематической линией.

Эта книга предназначена для глубокого понимания вопросов, которые, по моему мнению, достаточно хорошо изучены. Это означает, что некоторые темы рассматриваются менее подробно, а другие, которые, на мой взгляд, слишком специальны, вообще не рассматриваются. В связи с этим настоящую книгу можно считать дополнением к книге Дэна Белларда и Христофора Брауна [7], освещающей большое количество вопросов, но с меньшей глубиной. Вместе с тем во втором издании

монографии Азриэля Розенфельда и Авинаша Кака [92] элементарные понятия изложены более детально.

Существует тесная связь между обсуждаемым в книге материалом и изучением биологических зрительных систем. На этом я меньше заостряю внимание, используя в качестве извиняющего обстоятельства существование выдающейся работы на эту тему (ныне покойного) Дэвида Марра [75]. По той же причине я уделил несколько меньше внимания вопросам выделения краев, стереозрения по особенностям и некоторым задачам интерпретации изменяющихся во времени изображений. В книгах Эрика Гримсона [48], Элин Хилдрет [59] и Шимона Ульмана [104] эти вопросы рассматриваются гораздо более подробно, чем я могу себе здесь позволить. То же самое можно сказать о классификации образов благодаря существованию уже ставшей классической монографии Ричарда Дуда и Питера Харта [28]. Однако я не был абсолютно последовательным в своем отборе и включил две существенные главы по обработке изображений несмотря на тот факт, что энциклопедическая работа Уильяма Прэтта [87] исчерпывающим образом охватывает тему. Причина заключается в том, что этот материал важен для понимания шагов предпроцессорной обработки, используемых в последующих главах.

Многие из моих студентов на первых порах удивлялись тому, что в такой области требуется нетривиальный математический аппарат. До некоторой степени это связано с тем, что они были знакомы с простыми эвристическими методами, позволявшими получать весьма поразительные результаты. Значительная часть таких методов была разработана на ранней стадии развития машинного зрения, что привело к ложному оптимизму об ожидаемых темпах продвижения в этой области. Позже существенная ограниченность этих специальных подходов стала очевидна. Ныне уже ясно, что как изучение естественного языка требует знаний лингвистики, так и изучение машинного зрения — понимания процесса формирования изображения. Еще совсем недавно подобный взгляд не пользовался популярностью.

Если говорить более серьезно, машинное зрение часто рассматривается просто как совокупность средств анализа визуальной информации для системы с «искусственным интеллектом». В самом деле, в системах искусственного интеллекта (ИИ) оно занимает относительно скромное место ввиду значительной его математической сложности. Неверно рассматривать машинное зрение и систему управления роботом просто как «вход-выход» системы ИИ. Проблемы, связанные со зрением, манипулированием и локомоцией, интересны сами по себе, но достаточно трудны, и необходимые для их решения средства нетривиальны.

Работу системы, нормально функционирующей в определенной обстановке, можно частично понять путем анализа физики ее взаимодействия со средой. Применительно к зрению это означает, что, если вы хотите получить информацию о среде на основе изображений, вам

необходимо понять, как они формируются. Моделирование физического взаимодействия, естественно, приводит к описанию этого взаимодействия с помощью уравнений. Уравнения в свою очередь подсказывают алгоритмы получения по изображениям сведений о трехмерном мире. Это моя главная идея. Может показаться удивительным, но лишь немногие студенты с удовольствием применяют усвоенные ими в абстрактной форме математические методы к реальным задачам. Материал настоящей книги побуждает их попрактиковаться в изучаемых методах и, возможно, изучить новые понятия, с которыми они бы иначе не встретились.

В первой части книги основное внимание уделяется предварительной обработке изображений, т. е. как по изображениям получить простое символическое описание. Способы применения этих описаний при пространственных рассуждениях и планирующих действиях менее развиты и преимущественно основываются на методиках, отличных от соответствующих подходов предварительной обработки изображений. Последние пять глав посвящены методам, которые имеют дело с простыми символическими описаниями, непосредственно полученными на основе изображений. Подробности того, как система машинного зрения включается в состав робототехнического комплекса, обсуждаются в заключительной главе, в которой описывается система для взятия деталей из навала.

Значительная часть труда, затраченного на написание этой книги, ушла на составление упражнений. Они служат нескольким целям: некоторые позволяют читателю лучше усвоить идеи, излагаемые в главе; некоторые развивают идеи в глубину, при этом, возможно, привлекаются более утонченные средства; наконец, некоторые служат введением в новые области исследования. Обычно упражнения к данной главе приводятся именно в таком порядке. Об особенно сложных из ггих читатель предупреждается заранее.

В последнее время наметилась тенденция применения более компактной формы записи. Так, например, раньше в работах векторы нормалей к поверхности или векторы скоростей оптического потока указывались своими компонентами. Теперь стремятся использовать непосредственно векторную запись. Так, для описания ориентации поверхности вместо градиентного простансгва сейчас применяют гауссову сферу. В основном тексте книги я использовал покомпонентную запись, которую первоначально воспринимать проще. Зато в некоторых упражнениях я попытался продемонстрировать способы решения задач с привлечением более компактной формы записи.

Основная часть включенног о в эту книгу материала публиковалась ранее, но здесь она представлена в более последовательном изложении с использованием единых обозначений. Добавлен также ряд новых, ранее не публиковавшихся методов. Поскольку область быстро изменяется, кое-что из представленног о здесь может буквально за несколько

лет устареть или по крайней мере утратить былой интерес. И наоборот, кое-что из опущенного мною со временем может образовать фундамент для получения новых увлекательных результатов. Однако это не является серьезным недостатком книги, поскольку моя стратегическая линия направлена на развитие подходов, прочно зарекомендовавших себя в машинном зрении, а не специальных методов, разработанных для решения своей конкретной задачи.

Когда у нас будет система машинного зрения «общего назначения»? Во всяком случае, не в ближайший обозримый отрезок времени — вот мой ответ. Это не означает, что машинное зрение — просто интеллектуальная игрушка, не имеющая практического выхода. Напротив, в последнее время достигнут значительный прогресс в двух направлениях: а) концентрации усилий на конкретных аспектах машинного зрения, например на стереозрении и б) концентрации усилий на конкретных применениях, например на распознавании деталей для автоматической сборки. Настоящая зрительная система общего назначения должна охватывать весь спектр аспектов машинного зрения и его приложений ко всем задачам, решение которых основывается на использовании зрительной информации. Кроме всего прочего, она должна включать знания о физическом мире и уметь с ними обращаться.

Б. К. П. Хорн

Благодарности

Студенты курса «Машинное зрение» при МТИ заслуживают всяческих похвал за помощь в подборе и проверке материала. Мои ассистенты-преподаватели внесли свой вклад в постановку многих задач. Роберт Сьёберг также предоставил мне тщательно подготовленные заметки по нескольким темам, которые я, к сожалению, не смог включить в книгу из-за нехватки времени. Множество полезных замечаний по первым наброскам рукописи сделали Роберт Сьёберг, Энди Маултон, Эрик Баер, Майкл Геннерт и Язек Мисковски.

Несколько глав основано на работах, которые я написал в соавторстве. Мне хотелось бы поблагодарить Майкла Брукса за его вклад в обсуждение проблемы восстановления формы по распределению полутонов (гл. 11), Брайана Шанка за помощь при разработке методов анализа оптического потока (гл. 12), Энну Брасс за ее вклад в исследование проблемы пассивной навигации (гл. 17) и Капуши Икеуши за его серьезное отношение к реализации системы разборки навала (гл. 18).

Кристофер Браун, Герберт Фриман, Эрик Гримсон, Рамеш Джейн, Алан Макворт и Лотар Россол оказали помощь своими замечаниями по ранним вариантам текста. Майкл Брэди, Майкл Брукс, Майкл Геннерт и Элин Хилдрет просмотрели последние варианты книги и предложили много полезного. Майкл Геннерт внес вклад в проблему классификации образов (гл. 14). Внимательное прочтение книги Борисом Катцем и Ларри Коэном помогло устранить наиболее вопиющие лингвистические недостатки. К несчастью, в процессе подготовки я не устоял перед желанием переписать значительную часть материала и тем самым, без сомнения, вновь внес множество ошибок и ляпсусов.

Факультет электротехники и информатики предоставил мне шестимесячный отпуск для написания первоначального варианта. Кэрол Робертс напечатал этот первоначальный текст. Блайт Хип вычертил большинство рисунков. Филлис Роджерс помог подготовить библиографию. Майкл Геннерт пришел на помощь при окончательной подготовке текста в виде, пригодном для офсетной печати. Иллюстрация на передней обложке воспроизведена с любезного разрешения художника Хейджим Сорэйяма.

Марвин Минский направил меня по пути изучения машинного зрения, предложив в качестве темы диссертации восстановление формы

по распределению яркости на изображении. Патрик Уинстон поддерживал мой подход к проблеме машинного зрения с самого начала, еще тогда, когда он был малопопулярен. Марвин ответствен за создание, а Патрик — за выживание и расширение Лаборатории искусственного интеллекта при Массачусетском технологическом институте, в которой работы по машинному зрению процветают вот уже 20 лет.

Многие из изложенных здесь идей возникли в результате исследований, которые финансировались Управлением перспективных исследований и разработок министерства обороны США (DARPA) и Бюро национальных исследований (ONR).

<< Предыдущий параграф

Следующий параграф >>

Оглавление