Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
14.1.3. Структуры баз данных, основанные на значимых отношениях; PROTOSYNTHEX III и связанные с ним системыОсновные составляющие базы данных можно связать друг с другом многими способами. Способность отразить это программами BASEBALL и DEACON ограничена, поскольку в каждой из них единственный способ установить соотношение — это определить относительные положения двух единиц в базе данных. Другой метод структурирования данных — связать их с помощью помеченных соотношений.
Рис. 14.4. Структура данных, представленная помеченным графом. При таком подходе структуру данных можно рассматривать как граф, в котором узлами служат объекты базы данных, а помеченные дуги определяют соотношения. Куиллиан (1968, 1969) говорил о таких структурах как о семантических сетях, и хотя этот термин не очень точно соответствует нашему представлению о семантике, он довольно краток и его можно эффективно использовать. На рис. 14.4 приведена семантическая сеть, определяющая некоторые элементарные факты о человеке и его окружении. На каком-то этапе нам придется несколько усложнить это представление, но основная идея не изменится. Семантические сети возникали в ряде программ при попытках реализовать процесс понимания. Одно из основных понятий в области семантических сетей — типовое-символьное различие (Куиллиан, 1968). Любая рассматриваемая область содержит набор объектов. Сами по себе эти объекты определяются их взаимоотношениями с другими объектами, образуя семантическую сеть. Внутри нее должен находиться узел, связанный с определением каждого объекта. Он называется типовым узлом. Кроме того, сеть должна содержать другие узлы, относящиеся к частным случаям объекта в связи с его соотнесением с другими объектами. Это символьные узлы. Для иллюстрации представьте себе структуру данных, определяющую вхождения в словарь. Символьный узел слова мужчина определился бы как отношение подмножества к понятиям мужской и Homo sapiens. Рассмотрим теперь определение слова адвокат. Адвокат можно определить как мужчина при условии, что мужчина удовлетворяет отношениям, выражающим мысль „тот, кто дает советы в соответствии с законом". Узел для мужчина в определении слова адвокат, очевидно, должен был бы участвовать в отношениях совсем другого рода, чем узел для мужчина в определении слова врач. Представление в виде семантической сети приводит непосредственно к установлению правил вывода. В сущности, можно взять правило вывода, говорящее о том, что если в базе данных точно указано, что между узлами А и В существует отношение III (Шварц, Бюргер и Симмонс, 1970) представляет амбициозную попытку применить представление с помощью семантической сети в информационном поиске. Кроме семантической сети, в ROTOSYNTHEX содержатся очень сложные правила вывода. Принятая здесь структура данных описывается ниже. Основной элемент структуры данных в PROTOSYNTHEX — это „тройка событий" Отношения между термами отражает сеть иерархий и эквивалентностей. Эта сеть указывает программе такие факты, как мужчина есть Homo sapiens мужского рода, Сократ есть мужчина, человек — то же самое, что Homo sapiens, и т. д. Далее, PROTOSYNTHEX располагает классами интерпретируемых событий, называемых семантическими формами событий (СФС); они составляют общие классы событий
Рис. 14.5. Представление тройкой событий соотношения Джон любит Мэри. PROTOSYNTHEX содержит также языковый препроцессор, отображающий предложения на английском языке в тройки событий. Очевидно, эта программа похожа на предпроцессорную программу в BASEBALL тем, что она определяет внутреннюю форму сообщения без обратной связи с его частичным анализом. Этим она отличается от программы DEACON, в которой анализ языка объединяется с анализом структуры данных. Мы не будем обсуждать программу анализа языка, а ограничимся лишь замечанием, что невозможность использования семантической обратной связи может оказаться весьма ограничительной. Следующий пример иллюстрирует структуру данных в PROTOSYNTHEX и показывает, как можно ответить на вопрос, не прибегая к правилам вывода. На вход подается предложение The stones and iron that fall to earth from outer space are called meteorites. (10) Те камни и куски железа, которые упали на землю из космического пространства, называются метеоритами. Основные понятия здесь — это камни, земля, на, куски железа, пространство, космическое, падают, называются, метеориты. Кроме того, здесь есть ряд уточняющих термов „первого порядка". Они обозначаются помеченными дугами, определяющими тип уточнения. Например, „упали на землю" указывает на конкретный тип падения, падение в конкретную область. Это выражается так:
Из одних модифицированных термов могут создаваться другие:
(Звездочки указывают на пропуск в тройке.) Общая структура предложения (10) показана на рис. 14.6, а в виде тройки событий, состоящей из двух троек, связанных отношением И и требующей, чтобы эти тройки включали в себя уточняющие термы. Необходима также семантическая информация о термах. В этом конкретном примере нам не нужны правила вывода, но мы должны знать, какие термы эквивалентны, а какие образуют подмножества других термов (рис. 14.6, б). Теперь ответим на вопрос Что такое метеорит? Вот ответы, которые дает PROTOSYNTHEX: Метеорит быть „метеорит". Метеорит быть „метеориты Кусок железа, который упал на землю из космического пространства, быть „метеорит". Камень, который упал на землю из космического пространства, быть „метеорит". Ответы (12а) и (12б) получены, когда обнаружилось, что в семантической информации существует отношение эквивалентности между двумя термами.
Рис. 14.6. Данные к примеру работы программы PROTOSYNTHEX: а — тройки событий; б — семантические формы событий. Ответы (12в) и (12г) получены, когда обнаружилось, что вопрос (11) эквивалентен тройке объект эквивалентен метеорит (13) и тройки событий
Интуитивно ясно, что семантические сети дают естественный способ выражения сложных утверждений, но их практическая реализация довольно трудна. Это представление обходится дорого и в смысле машинного времени, и в смысле занимаемой памяти. Шварц и др. (1970) сообщают, что для ответа на самые простые вопросы с использованием очень малой базы данных потребовалось время до 20 мин. Поскольку эти результаты получены на устаревшей теперь вычислительной машине (военная ЭВМ AN/FSO-32) и их, несомненно, можно улучшить, возникает вопрос, будет ли это улучшение достаточным. Для практических задач понимания мы должны увеличить скорость и емкость памяти по крайней мере на два порядка. Сомнительно, что развитие вычислительной техники позволит достичь этого в ближайшем будущем. Подобные проблемы свойственны и другим системам, в которых применяются семантические сети. Возможно, еще большая трудность связана с числом отношений, которые надо задать, чтобы получить систему, способную к серьезным рассуждениям. Абельсон (1966) указал, что моделирование человеческих рассуждений на ЭВМ часто бывает неудачным, так как мы забываем включить в базу данных такие прозаические факты, как Люди, остающиеся под дождем, оказываются мокрыми. Поскольку мы не можем предвидеть все факты, которые могут понадобиться „понимающей" программе, мы должны учесть все отношения, которые, возможно, здесь существенны. Даже если мы располагаем машинными возможностями, позволяющими работать с нужным нам графом, то как нам подготовить данные? С другой стороны, каков иной выход? Чтобы достичь максимального машинного понимания, нам, быть может, придется перенести в память ЭВМ все определения словаря Уэбстера. Сейчас это неосуществимо, хотя, возможно, скоро станет реальным применять семантические сети для представления нетривиальных баз данных при ограниченных требованиях к пониманию в специальных приложениях, таких, как токсикология или законодательство о недвижимом имуществе. До этого, однако, необходимо разработать практический пример такого метода.
|
1 |
Оглавление
|