2.10.3. Графические представления в задачах на понимание естественного языка
Первые исследования проблемы понимания естественного языка основывались на синтаксическом анализе предложений и последовательном изучении слов. В качестве основной цели при этом выдвигались автоматический перевод и автоматическая обработка документов. Сегодня исследователи убеждены, что этого недостаточно и для понимания текста программы необходимо обеспечивать семантической информацией типа той, что находится в словарях, а также значительным объемом
информации прагматического типа, описывающей мир, в котором мы живем, наше поведение в нем и наши поступки.
Первые контекстно-свободные грамматики Хомского были легко представимы с помощью правил переписывания. Вскоре появилась необходимость в разрешении относительных двусмысленностей, например в местоимениях, и во временной приостановке процесса анализа фразы на данном уровне, чтобы перейти на низший уровень анализа и затем снова вернуться к прерванному анализу.
Рис. 2.18 а. Граф считывания данных.
Графы переходов или ATN (Augmented Transition Networks- расширенные сети переходов) в настоящее время обычно используются для одновременного синтаксического и семантического анализа предложений. Вершины этих графов представляют собой слова из одного и того жесемантического семейства, либо графы, из чего и вытекает существенно рекурсивный характер такого представления. Так, программа Б. Шишечи (В. Chichetchi, These Zeme cycle, Paris, 1979) понимает задачи по электричеству, используя транзитивные графы при считывании исходных данных (рис. 2.18а). Например, программа распознает такую фразу: «Частота напряжения V составляет 50 Гц». Очевидно, что определенные слова важны для понимания, а другие могут быть опущены в тексте (например, герц), без изменения при этом результата анализа фразы. Любая фраза, соответствующая определенному пути на этом графе, заранее пригодна. При этом элемент (711 сам является графом различных возможных описаний характеристик электрического тока и представлен на рис. 2.186. Такой граф позволяет автоматически распознавать, например, не только прёдложение “напряжение V равно 10 В”, но и фразу: “Эффективное значение переменной разности потенциалов составляет 80 В и сила тока — 5 А”. По мере распознавания текста такой системой он переводится во внутреннее представление, которое обобщает все специфические сведения, содержащиеся в обрабатываемом тексте. Это внутреннее представление часто называют «семантической сетью» (Симмонс, Кордье, Лопес). Сеть, которая вначале пуста, непрерывно увеличивается, модифицируется, корректируется в процессе анализа. Она может содержать как точные сведения, так и сведения просто вероятные или
Рис. 2.18 б. Граф описаний характеристик электрического тока.
Рис. 2.18 в. Семантическая сеть с разбиениями.
условные. На рис. 2.18 в дан пример машинного представления трансформатора в программе (М. Lopez, 1979).
Определенные вершины графа сгруппированы в блоки, которые выделены рамками, объединяющими концептуальные совокупности или связанные подмножества сведений.