ЛИНГВИСТИЧЕСКАЯ СТАТИСТИКА
— отрасль языкознания, занимающаяся анализом количественных характеристик языка и речи. Осн. исходным материалом Л. с. является текст, рассматриваемый как последовательность лингвистических единиц фиксированного уровня (текст может рассматриваться как последовательность букв, фонем, слогов, морфов, словоформ, предложений). Изучаются статистические характеристики распределения лингвистических единиц в тексте речи и на основе этих данных формируются высказывания о системе языка и механизме порождения текста. Свои важнейшие понятия (напр., понятие генеральной совокупности и выборки), как и матем. аппарат, Л. с. заимствует у математической статистики. Так, в качестве выборки могут служить либо тексты, либо лингвистические формы. Соответственно этому меняется представление о генеральной совокупности: генеральной совокупностью может служить совокупность как текстов, так и совокупность единиц, содержащихся в них.
Кроме того, в качестве различных генеральных совокупностей могут рассматриваться инвентари лингвистических форм: в этом случае каждая лингвистическая форма является выборкой (с повторением) из инвентаря форм одного из предшествующих уровней, напр., любые предложения можно рассматривать как выборку слов из инвентаря словоформ, или как выборку морфов из инвентаря морфем, или как выборку звуков речи из инвентаря фонем.
В зависимости от характера исследуемых лингвистических единиц различают фонологическую статистику, занимающуюся статистическим изучением закономерностей употребления звуков речи, фонем, слогов и т. п., морфологическую статистику, занимающуюся статистическим изучением употребления различных морфологических форм (основ, суффиксов, моделей слов, частей речи и т. п.), лексическую статистику, занимающуюся статистическим изучением закономерностей употребления слов и словосочетаний. Стилистическая статистика устанавливает статистическими методами особенности функциональных, жанровых и индивидуальных стилей. Кроме указанных разделов, в Л. с. выделяют также типологическую статистику, занимающуюся выработкой количественных типологических признаков языков, ихронологическую статистику (глоттохронологию), занимающуюся разработкой методов определения времени расхождения языков. Для всех разделов Л. с. характерно использование понятия частоты лингвистической формы в качестве меры ее употребительности.
Л. с. как науч. дисциплина возникла в связи со стремлением расширить совокупность структурных характеристик лингвистических форм характеристикой их употребительности. При этом исходили из предположения, что любой лингвистической форме присуща априорная вероятность быть употребленной в тексте. Собственно эта вероятность и должна характеризовать употребительность данной лингвистической формы. В качестве способа отыскания этих вероятностей используется выборочный метод статистики, дающий приближенную оценку употребительности лингвистической формы в виде ее относительной частоты. Л. с. изучает не только относительные частоты лингвистических форм и их классов, но и такие характеристики форм, как их размер (длина), сочетаемость (сила связи), распределение в тексте. Различие между текстами может состоять в различном составе форм и в различной их употребительности. Этот факт использует стилистическая статистика, вырабатывающая методы сравнения текстов по составу и употребительности форм и получения оценок степени различия текстов. Тексты на различных языках характеризуются различной относительной частотой элементов сходного типа. Это использует типологическая статистика для разработки методов типологического сопоставления языков и получения оценок для т. н. типологических индексов. Напр., отношение числа морфем к числу слов в тексте может служить мерой синтеза языка (наз. его индексом синтетичности). Вьетнамский язык, в котором слова практически одноморфемные, характеризуется индексом синтетичности 1,06 в отличие от эскимосского, в котором индекс синтетичности равен 3,72. Между ними располагаются английский (1,68), русский
и украинский
языки.
Отдельную отрасль Л. с. составляют исследования, использующие методы теории информации. В Л. с. сформулирован ряд специфических лингвостатистических задач, таких, как нахождение объема словника текста по его длине, нахождение объема полного словаря писателя по выборке из текстов этого писателя, оценка степени неоднородности текстов на разных уровнях, характеристика статистической структуры текста, установление связей между статистическими характеристиками лингвистических форм разных уровней и др.
В связи с решением этих задач возникли проблемы изучения лингвостатистических распределений. В исследовании структуры языка используются и качественные, и количественные характеристики его элементов, а это позволяет глубже понять механизм языка и принципы его порождения. Данные об употребительности элементов языка, прежде всего слов, широко используются в таких прикладных областях, как преподавание языков, текстология, стенография, машинный перевод, связь и др. См. также Языка информационные измерения.
Лит.:
В. М. Андрющенко.