МОДЕЛЬ «СМЫСЛ-ТЕКСТ»
- модель системы автоматического перевода с одного языка на другой, являющаяся одновременно программой описания естественного языка. М. «с. « т.» опирается на достижения первого десятилетия работ по автоматическому переводу (АП) в СССР и за рубежом (1954—64) — переход от бинарных алгоритмов перевода к идее независимости синтаксического анализа от последующего синтеза, метод фильтров, методы семантического тезауруса и семантических множителей, а также на представление об описании языка как об исчислении, внесенное в лингвистику теорией грамматик порождающих.
М. «с. - т.» исходит из следующих принципов: владение языком проявляется у говорящего в способности выразить нужный ему смысл с помощью соответствующего текста, а у слушающего — в умении извлечь из текста содержащийся в нем смысл; при АП с языка на язык осн. операции движения от смысла к тексту и обратно предстают в явном виде: смысл, закодированный на входном языке, подлежит декодированию и независимой фиксации, а затем кодированию на выходном языке. Поэтому задачи АП и научного описания языка, т. е. построения его действующей модели, совпадают.
Существенным свойством естественного языка является многозначность функции «смыслы - тексты»; один и тот же смысл может быть выражен многими разными способами (так, для фразы «Только обилие специальных терминов в этом тексте мешает ему перевести его» в рус. языке имеется по меньшей мере 107 синонимичных перифраз). В М.«с.» «т.» этому свойству соответствует принцип множественности синтеза — по заданному смыслу М. «с. «т.» призвана строить все соответствующие ему тексты; для целей АП порождение может ограничиваться получением первого удовлетворительного во всех отношениях варианта перевода. Движение от смысла к тексту (и обратно; но до сих пор М. «с. т.» разрабатывалась в основном в аспекте синтеза) представимо как проходящее ряд уровней — от «максимально семантического» представления до реального текста.
С разработкой М. «с.» «т.» связано открытие следующего фундаментального лексико-семантического свойства естественных языков: существует примерно 50—100 значений, таких, что: каждое из них часто выражается в тексте; общее число различных выражений каждого из них очень велико — более 100; в каждой данной точке текста выбор конкретного выражения строго определяется ключевым словом С, вокруг которого концентрируется данное значение. Эти значения названы стандартными лексическими функциями (ЛФ) от ключевых слов, а их выражения — значениями ЛФ, или лексическими коррелятами. Примеры ЛФ приведены в табл. 1.
Ряд ЛФ, играющих важнейшую роль в М. соответствует достаточно абстрактным значениям, находящимся на границе между семантикой и синтаксисом. К ним относятся т. н. лексические замены, т. е. ЛФ, ставящие в соответствие ключевому слову С корреляты с тем же значением, принадлежащие к той же части речи (синонимы — )
или к др. частям речи напр., строительство; и т. п., и ЛФ Орег, Func, и Labory, являющиеся «оглаголенным» выражением синтаксической связи между названием ситуации и ее участниками (см. табл. 2).
Движение в М. от смысла к тексту, или семантический синтез, мыслится по следующей схеме 1. Семантический компонент: от смысловой записи (сложного графа семантических элементов) до синтаксических структур. 2. Синтаксический компонент: от синтаксической структуры до линейных последовательностей абстрактных характеристик словоформ. 3. Морфологический компонент: от абстрактной характеристики словоформы до ее фонемного представления. 4. Фонологический компонент: от фонемного представления до орфографической записи.
Наименее разработанным в лингвистике и наиболее актуальным является семантический
Таблица 1. (см. скан)
компонент, в котором М. «с. т.» выделяет три уровня: а) первичное языковое оформление смысла: от абстрактной семантической записи до т. н. базовых структур; б) языковое перифразирование: от базовой структуры до всех глубинных лексико-синтаксических структур (ЛСС), синонимичных ей; в) синтаксическая реализация ЛСС: от ЛСС до всех
соответствующих ей поверхностных синтаксических структур (ПСС).
Как ПСС, так и ЛСС представляют собой деревья, в узлах которых стоят слова, а ветвями являются синтаксические отношения. В ЛСС узлами могут являться ключевые слова или символы ЛФ, а в качестве ветвей выступают порядка 10 обобщенных синтаксических отношений: не более 6 актантных, одно общеопределительное, 6 сочинительных и др. В ПСС узлами являются основы конкретных слов, входящих в соответствующее предложение, а ветвями — порядка 30—50 синтаксических отношений, необходимых для отражения в ПСС тех связей между словами, которые в реальном предложении выражаются морфологией и порядком слов. Множество синонимичных ЛСС представляется одной базовой ЛСС. Уровень базовой ЛСС располагает теми же глубинными отношениями, что и все ЛСС, но его лексика более ограничена: каждое гнездо дериватов и синонимов представлено только одним членом, отсутствуют «пустые» .
Синонимия ЛСС, в т. ч. сведение их к базовым ЛСС, обеспечивается системой перифразирования. Она состоит из связанных друг с другом лексических и синтаксических правил. Лексические правила (их около 50) задают эквивалентности между различными формулировками одного и того же смысла в терминах лексических функций, напр., «он осмотрел больных» -> «он провел осмотр больных». Синтаксические перестройки, необходимые для реализации лексических эквивалентностей, осуществляются с помощью синтаксических правил. По форме каждое синтаксическое правило представляет собой пару синтаксических деревьев, в узлах которых могут стоять переменные, отсылающие к соответствующим компонентам лексических правил, и постоянные. В качестве примера выпишем синтаксическое правило, обеспечивающее приведенное выше лексическое (см. рис.), где X соответствует С, т. е. осмотрел, Z — Operi, т. е. провел, т. е. осмотр.
Последовательное разделение всех операций М. «с. т.» на уровни, в частности выделение уровня лексических правил и уровня синтаксических правил, соответствует общему принципу, принятому в М. согласно которому синонимия — это семантическая эквивалентность, т. е. взаимозаменимость, но лишь на уровне смысла. Практически заменимость ограничивают фильтры, рассеянные по всем участкам модели; важнейшую роль в решении вопроса о допустимости порождаемого варианта играет словарь, построенный на основе ЛФ, отражающих лексическую сочетаемость ключевых слов. Помимо ЛФ, о каждом слове в словаре сообщается много другой информации, и, в первую очередь, модель управления, содержащая указания о числе синтаксических валентностей слова, о способах их заполнения, возможности (невозможности) или необходимости сочетания выражений разных мест и т. п., т. е. о синтаксической сочетаемости.
Лит.: Жолковский А. К., Мельчук И. А. О возможном методе и инструментах семантического синтеза. «Научно-техническая информация», 1965, №6; Жолковский А. К., Мельчук И. А. О семантическом синтезе. «Проблемы кибернетики», 1967, в. 19; Жолковский А. К., Мельчук И. А. К построению действующей модели языка «смысл текст». «Машинный перевод и прикладная лингвистика», 1969. в. И. А. К. Жолковский.