ЛИНГВИСТИКА МАТЕМАТИЧЕСКАЯ
— прикладная математическая дисциплина, основной задачей которой является разработка точных методов изучения естественных языков.
Возникновение Л. м. во 2-ой пол. 50-х годов 20 ст. было вызвано прежде всего внутр. потребностями лингвистики, стимулировано оно и развитием автоматического перевода (см. Машинный перевод), потребовавшего уточнения некоторых лингвистических понятий. Кроме автоматического перевода, методы Л. м. применяются и в других отраслях лингвистики. Не являясь частью собственно лингвистики, Л. м. тем не менее развивается в тесном контакте с ней; вместе с тем внутри Л. м. возникают и самостоятельные проблемы, не всегда имеющие непосредственные приложения в лингвистике. В Л. м. широко используются методы алгоритмов теории, автоматов теории и алгебры.
Функционирование языка естественно представлять себе как процесс преобразования некоторых объектов, которые можно назвать «смыслами», в объекты другой природы — «тексты», и наоборот. Содержательные соображения подсказывают расчленение этого преобразования на этапы. Напр., при одном из наиболее грубых членений некоторый этап может состоять в переходе от «смыслов» к «синтаксическим структурам» — наборам элементов предложений, соединенных «синтаксическими связями», но еще не расположенных в линейную последовательность. На следующем этапе получается линейная последовательность слов, а затем слова превращаются в цепочки звуков (см. Модель «смысл о- текст»).
Для формального описания такого процесса необходимо построить матем. понятия, служащие моделями «смыслов», «текстов» и результатов промежуточных этапов (чтобы модель «работала», эти объекты должны быть конструктивными). Этапы преобразования естественно моделировать эффективными отображениями соответствующих множеств объектов друг в друга. Картина, однако, осложняется
тем, что указанное преобразование неоднозначно, и таковы же все или почти все (в зависимости от способа членения) промежуточные этапы. Это обстоятельство связано с одной из важнейших особенностей языка — явлением синонимии, т. е. возможностью выражать одно и то же содержание различными способами. Поэтому для моделирования этих этапов приходится строить вместо детерминированных систем (алгоритмов) недетерминированные (исчисления), позволяющие для каждого объекта одного «уровня» перечислять соответствующие ему объекты следующего «уровня», а также перечислять для каждого объекта все синонимичные ему объекты того же «уровня». Такие исчисления известны под названием грамматик формальных.
Небольшая модификация понятия формальной грамматики дает системы, позволяющие перечислять множества «правильных» объектов одного уровня, т. е. таких, которым могут быть регулярным способом сопоставлены к.-л. объекты предыдущих уровней, а также множества пар соответствующих друг другу объектов «соседних» уровней (напр., предложение и его «синтаксическая структура»). Именно такие варианты формальных грамматик к настоящему времени наиболее полно разработаны. При построении формальных грамматик наряду с осн. объектами, моделирующими элементы разных уровней (напр., слова), приходится использовать вспомогательные объекты, представляющие собой отношения на мн-вах основных объектов или классификации этих последних (напр., грамматические категории). Поэтому возникает необходимость формального изучения таких отношений и классификаций.
Таким образом, можно выделить три аспекта формального описания языка: описание строения языковых объектов различных уровней, описание некоторых спец. отношений и классификаций на мн-вах этих объектов и описание преобразований одних объектов в другие, а также строения мн-в «правильных» объектов. Этим аспектам отвечают три осн. раздела Л. м.: 1) разработка и изучение способов описания структуры отрезков речи; 2) изучение формального строения лингвистически значимых отношений и классификаций на мн-вах языковых объектов (построенные для этой цели формальные системы обычно наз. аналитическими моделями языка) и 3) теория формальных грамматик.
Теорию способов описания структур отрезков речи можно в матем. отношении охарактеризовать как некоторое специальное ответвление графов теории, т. к. соответствующие структуры представляют собой, как правило, графы или сходные с графами объекты. Так, для описания синтаксической структуры предложения используются т. н. деревья подчинения (синтаксического) — деревья с дополнительным отношением линейного порядка (отвечающим порядку слов в предложении). Дуги деревьев подчинения обычно помечаются символами типов отношений (напр., «предикативное» — отношение между сказуемым и подлежащим, «определительное» — отношение между определяемым и определенным и т. п.). Понятие дерева подчинения формализует обычные «школьные» представления о синтаксических связях. Однако даже такая простая формализация позволила обнаружить исключительно важный лингвистический факт — т. н. явление проективности, состоящее в том, что, как правило, между двумя словами а и b, такими, что а подчиняет b, не может быть ни одного слова, не подчиненного прямо или косвенно слову а (случаи несоблюдения этого правила сравнительно немногочисленны и могут быть закономерно объяснены).
Другим способом представления синтаксической структуры предложения являются системы составляющих, также представимые в виде деревьев. На более близких к смыслу уровнях уже не удается обойтись деревьями и приходится использовать графы более общего вида. В последнее время интенсивно разрабатываются способы описания уровней, промежуточных между синтаксическими и «чисто смысловыми»; достаточно четко разработанных средств описания «чисто смыслового» уровня пока нет.
Теория аналитических моделей языка пользуется, как правило, несложным матем. аппаратом (простейшие понятия логики математической, теории множеств и алгебры, в частности, теории полугрупп). Конструкции этой теории отправляются от наборов «неупорядоченных» данных и заканчиваются построением (не обязательно эффективным) систем, в каком-то смысле описывающих строение языка; это позволяет считать такие конструкции «моделями деятельности лингвиста». Одной из гл. задач теории аналитических моделей языка является формализация традиционных лингвистических категорий — таких, как часть речи, падеж, род, фонема и т. п.
Существующие способы формализации («модели») этих категорий можно разделить на два типа. В моделях 1-го типа исходные наборы представляют собой мн-ва цепочек, т. е. линейно упорядоченных последовательностей элементов. В моделях грамматических категорий эти цепочки интерпретируются как «грамматически правильные предложения» (в набор исходных данных можно включать и указания на заведомую неправильность некоторых цепочек). Модели 2-го типа, появившиеся в середине 60-х годов 20 ст. и в случае грамматических категорий позволяющие получить более адекватное приближение к традиционным понятиям, имеют в качестве исходных данных наборы сведений о способности одних элементов подчинять себе другие. Напр., каждый падеж русского (украинского) существительного можно описать как совокупность форм существительных, в некотором точном смысле одинаково управляемых другими словами. С помощью аналитических моделей можно изучать не только отношения парадигматические, но и отношения синтагматические. Такие модели также можно разделить на два
типа по характеру исходных данных, как указано выше.
К теории аналитических моделей языка примыкает теория лингвистической дешифровки, занимающаяся построением нроцедур, которые применяются к «неупорядоченным» эмпирическим данным о языке и сходны в этом с аналитическими моделями, но, в отличие от последних, всегда эффективны и позволяют получать не только абстрактные определения, но и конкретные сведения о структуре конкретных языков. Дешифровочные алгоритмы, как правило, сложнее аналитических моделей. Примером могут служить алгоритмы выделения гласных и согласных по тексту.
Теория формальных грамматик занимает центр, место в Л. м., поскольку именно она доставляет средства для изучения собственно функционирования языка. Вместе с тем она выделяется среди других разделов Л. м. большей сложностью аппарата (сходного с аппаратом теории алгоритмов и общей теории автоматов, с которыми имеет много точек соприкосновения) и значительно большей сложностью возникающих в ней матем. задач. Формальные грамматики наиболее хорошо изученных типов представляют собой системы («устройства»), позволяющие порождать или распознавать мн-ва цепочек, интерпретируемые обычно как мн-ва грамматически правильных предложений некоторых языков, а также сопоставлять входящим в эти мн-ва цепочкам описания их синтаксической структуры в терминах систем составляющих или деревьев подчинения. Наибольшее значение среди этих грамматик имеют грамматики порождающие, введенные амер. ученым Н. Хомским.
В зависимости от вида правил выделяются различные типы порождающих грамматик: грамматики составляющих (НС-грамматики), бесконтекстные, автоматные и др. Наибольшее значение для лингвистических приложений имеют НС-грамматики (в которых на каждом шаге фактически заменяется только один символ), поскольку они позволяют естественным образом сопоставлять выводимым в них цепочкам системы составляющих. Грамматики более частных типов — бесконтекстные и автоматные — также представляют большой лингвистический интерес. Важную роль в теории порождающих грамматик играет изучение различных классов грамматик, промежуточных между НС-грамматиками и бесконтекстными и между бесконтекстными и автоматными, и выяснение соотношений между соответствующими классами порождаемых языков.
Матем. значение порождающих грамматик определяется тем, что они представляют собой одно из средств эффективного задания мн-в. Класс языков, порождаемых произвольными грамматиками, совпадает с классом рекурсивно-перечислимых мн-в. Особый интерес с этой точки зрения представляют НС-грамматики, бесконтекстные и автоматные грамматики, т. к. порождаемые ими языки примитивно-рекурсивны и, более того, входят в самые низшие классы существующих иерархий примитивно-рекурсивных мн-в по сложности вычисления (эти языки можно считать «просто устроенными»), и в то же время их достаточно для многих важных матем. приложений. В этой связи приобретает существенное значение изучение классов автоматов, эквивалентных тем или иным классам грамматик, т. е. описывающих те же языки. В частности, автоматные грамматики эквивалентны автоматам конечным, бесконтекстные — автоматам с магазинной памятью (см. Автомат магазинный), НС-грамматики — линейно ограниченным Тьюринга машинам, т. е. таким машинам Тьюринга, которые перерабатывают каждую цепочку, не выходя за пределы того участка ленты, где она записана вначале.
Одним из важных направлений теории порождающих грамматик является изучение сложности выводов. Сложность вывода в грамматике может измеряться различными способами, из которых наиболее универсальными являются два — по числу шагов вывода (временная сложность) и по объему используемой «памяти», т. е. по макс. длине промежуточной цепочки вывода (емкостная сложность). Удается получить ряд верхних и нижних оценок временной и емкостной сложности вывода в грамматиках различных классов (причем получение нижних оценок оказывается особенно сложным), а также некоторые сведения о возможности строить для тех или иных грамматик эквивалентные (т. е. порождающие те же языки) с более простыми выводами, и о степени возрастания сложности при переходе от некоторой грамматики к эквивалентной ей грамматике более простого вида. Для НС-грамматик имеются еще и специфические характеристики сложности вывода: глубина по Ингве, степень самовставления, тесно связанные со сложностью систем составляющих, сопоставляемых выводимым цепочкам. Эти характеристики весьма существенны для лингвистических приложений. Для бесконтекстных грамматик важной характеристикой вывода является активная емкость — макс. число вхождений вспомогательных символов в промежуточную цепочку вывода.
Теория сложности выводов в грамматиках во многом параллельна теории алгоритмов сложности, однако далеко не копирует ее. Кроме сложности выводов, изучается и сложность самих грамматик, которую можно измерять, напр., суммой длин левых и правых частей правил или числом вспомогательных символов. К указанным направлениям примыкает изучение сложности распознавания языков, порождаемых грамматиками различных классов. Здесь решаются задачи следующего типа: для того или иного класса грамматик указываются оценки сложности работы автомата некоторого заданного вида (напр., машины Тьюринга с данным числом лент и головок), распознающего язык, порождаемый грамматикой этого класса (распознавать язык — значит для каждой цепочки, поданной на вход автомата, давать ответ на вопрос, принадлежит ли она языку). Сложность
работы автомата можно при этом измерять числом шагов или объемом затрачиваемой памяти. Так, всякий бесконтекстный язык распознается машиной Тьюринга с одной лентой и одной головкой, затрачивающей на работу с любой цепочкой длины
не более чем
шагов.
Один из разделов теории порождающих грамматик — теория «управления выводом»; она изучает строение мн-в, порождаемых грамматиками при наложении тех или иных ограничений на выводы. Возможность использовать не произвольные, а лишь какие-то определенные выводы лучше отражает ситуацию, имеющую место в естественном языке. Осн. задачи здесь состоят в установлении соотношений между классами языков, порождаемых грамматиками различных типов с различными ограничениями. Примером грамматики с ограничениями на выводы может служить т. н. матричная грамматика, правила которой имеют такой же вид, как в бесконтекстной, но сгруппированы в конечные последовательности (причем одно правило может встречаться несколько раз как в одной последовательности, так и в разных), и правила каждой последовательности разрешается применять только все подряд и в заданном порядке. Класс языков, порождаемых матричными грамматиками, является строго промежуточным между классами бесконтекстных языков и НС-языков.
Большое место в теории порождающих грамматик занимают алгоритм, проблемы, в частности, проблемы существования алгоритмов, распознающих по грамматике определенного класса, обладает ли порождаемый ею язык тем или иным свойством. Очень часто такие проблемы решаются отрицательно. Так, в классе НС-грамматик из «интересных» в содержательном смысле свойств языков оказываются распознаваемыми только свойства типа «содержать данную цепочку»; такие свойства, как «быть пустым», «быть конечным», «иметь пустое дополнение», «иметь конечное дополнение», «быть бесконтекстным языком», в этом классе нераспознаваемы. В классе бесконтекстных грамматик пустота и конечность языка распознаваемы, но пустота и конечность дополнения остаются нераспознаваемыми.
Кроме грамматик Хомского, существуют и иные виды грамматик, предназначенные для описания мн-в цепочек, — грамматики зависимостей, сопоставляющие цепочкам деревья подчинения, грамматики категориальные, в которых информация о синтаксическом строении языка заключена не в правилах, а в особой структуре вспомогательного словаря, и др. Разрабатываются также концепции грамматик, служащие для переработки не цепочек, а графов — чаще всего деревьев, а иногда и и объектов более общей природы. Использование таких грамматик для описания естественных языков позволяет раздельно трактовать синтаксическую структуру предложения и линейный порядок слов, по содержанию относящиеся к разным уровням, и тем самым более адекватно моделировать функционирование языка. Примером могут служить т. н. лексико-синтаксические А-грамматики. В них перерабатываемыми объектами являются деревья с пометками в вершинах (интерпретируемыми как лексические единицы) и на дугах (интерпретируемыми как типы синтаксических связей). Правила, как и в грамматиках Хомского, представляют собой правила подстановки. А-грамматики предназначаются для преобразования одних деревьев в другие, но могут быть использованы и для порождения деревьев.
Л. м. имеет многочисленные приложения не только в исследовании естественных языков, но и в построении и изучении искусственных языков, в особенности языков программирования. См. также Языка модели аналитические.
Лит.: Кулагина О. С. Об одном способе определения грамматических понятий на базе теории множеств. «Проблемы кибернетики», 1958, в. 1; Сухотин Б. В. Алгоритм лингвистической дешифровки. В кн.: Проблемы структурной лингвистики. М., 1963; Ревзин И. И. Метод моделирования и типология славянских языков. М., 1967 [библиогр. с. 277—? 290]; Гладкий А. В., Мельчук И. А. Элементы математической лингвистики.М., 1969 [библиогр. с. 188—192]; Гладкий А. В. Формальные грамматики и языки. М., 1973 [библиогр. с. 349—356]; Хомский Н. Синтаксические структуры. В кн.: Новое в лингвистике, в. 2. М., 1962; Норсгоft J. Е., U11man J. D. Formal languages and their relation to automata.London, 1969 [библиогр. с. 233—238]. А. В. Гладкий.