ЯЗЫК ИНФОРМАЦИОННО-ПОИСКОВЫЙ
— информационный язык, предназначенный для записи семантической информации с целью последующего использования в информационно-поисковых системах.
Я. и.-п. обеспечивают документальный и фактографический поиск информации автоматический. Документальные Я. и.-п. предназначаются для записи сведений, первоначально зафиксированных в науч.-тех. документах и информационных запросах средствами естественных языков, и обеспечивают отыскание в некотором массиве документов таких, которые отвечают на поставленный информационный запрос. Фактографические Я. и.-п. предназначаются для непосредственного описания объектов (фактов) и обеспечивают отыскание в некотором массиве объектов таких, которые отвечают на поставленный информационный запрос.
Я. и.-п. обычно состоит из словаря (тезауруса) и грамматики. Тезаурус включает лексику Я. и.-п., систему его отношений парадигматических, а также соответствия между словами естественного и информационного языков. Грамматика содержит правила образования производных единиц Я. и.-п. (напр., кодов семантических, синтагм и предложений) и правила их тождественных преобразований. Грамматика регламентирует, в частности, использование указателей связи, указателей роли и др. подобных средств обозначения отношений синтагматических.
Семантическую силу Я. и.-п. характеризуют следующие параметры: лексическая полнота (полнота лексического состава языка), лексическая точность (способность Я.и.-п. различать предметы), парадигматическая полнота (полнота передачи информации об имманентных, т. е. постоянных, отношениях между предметами), парадигматическая точность (способность Я. и.-п. различать имманентные отношения), синтагматическая полнота (полнота передачи информации о ситуативных, т. е. возникающих в определенных ситуациях отношениях между предметами) и синтагматическая точность (способность Я. и.-п. различать ситуативные отношения). Если лексические полнота и точность характеризуют не столько тип языка, сколько состояние его словаря, то остальные параметры позволяют произвести классификацию Я. и.-п. по их семантической силе.
С точки зрения парадигматической полноты выделяют три осн. класса Я. и.-п.: 1) языки, в которых отсутствуют средства выражения имманентных отношений между предметами, т. е. языки без парадигматических отношений (примером может служить система унитермов); 2) языки, в которых имеются средства выражения лишь одного имманентного отношения, т. е. языки с одним парадигматическим отношением подчинения (примером этого класса может служить Я. и.-п. системы «Пусто-Непусто-4»); 3) языки, которые располагают средствами выражения большего числа важных (в идеале — практически всех) имманентных отношений
соответствующей предметной области. Среди Я. и.-п. 3-го класса выделяют три подкласса с различной парадигматической точностью: подкласс 3.1 — языки, в которых имманентные отношения между предметами выражаются, но не различаются, т. е. языки, в которых фиксируется (обычно лексикографическим или табличным способом) лишь факт наличия некоторого парадигматического отношения между дескрипторами, но не его характер (напр., «Тезаурус дескрипторов» Бюро мелиорации США); подкласс 3.2 — языки, в которых выделяется и специально обозначается одно имманентное отношение, а остальные имманентные отношения выражаются, но не различаются, т. е. это те языки, в которых имеется два парадигматических отношения — подчинения и ассоциативное (напр., «Тезаурус технических терминов» Объединенного совета инженеров США); подкласс 3.3 — языки, в которых выделяется и различается большинство разнородных имманентных отношений, т. е., это те языки, в которых имеется более двух парадигматических отношений между дескрипторами (примером может служить ДХ-язык 4-го уровня).
Другим основанием классификации является оснащенность Я. и.-п. грамматическими средствами, позволяющими передавать ситуативные отношения между предметами. С точки зрения синтагматической полноты целесообразно различать два класса Я. и.-п.: класс А — языки, в которых отсутствуют средства выражения ситуативных отношений между предметами (т. н. языки «без грамматики», напр., Я. и.-п. систем «Пусто-Непусто»); класс Б — языки, в которых имеются средства выражения ситуативных отношений (языки с грамматикой). Среди Я. и.-п. класса Б выделяются два подкласса в соответствии с синтагматической точностью: подкласс Б. 1 — языки, в которых имеются средства для выражения ситуативных отношений, но нет средств для их различения (языки с простейшей грамматикой синтагматических отношений в виде указателей связи); подкласс Б. 2 — языки, в которых ситуативные отношения между предметами не только выражаются, но и различаются (языки, в которых имеются спец. грамматические средства в виде, напр., сочетания указателей связи с указателями роли).
Требования к полноте и точности разных Я. и.-п. зависят от целого ряда факторов. К ним относится прежде всего тип задачи, решаемой с помощью этих языков. При прочих равных условиях язык для ретроспективного (справочного) поиска должен обеспечивать большую полноту и точность, чем язык для избирательного распределения информации. Фактографический поиск точно так же требует большей полноты и точности, чем документальный. Требования к полноте и точности Я. и.-п. повышаются с ростом объема информационного массива, с увеличением степени специализации массива, с ростом конкретности информационных запросов. На эти требования влияет и характер обработки информации в информационно-поисковой системе, в первую очередь, степень автоматизации процедур, связанных с семантическим анализом текстов (сюда относят, в частности, индексирование, перевод на Я. и.-п., установление парадигматических отношений).
Применение Я. и.-п. со степенью полноты и точности, превышающей необходимую, является нецелесообразным. Язык с развитой грамматикой, имеющий разнообразные средства выражения парадигматических и синтагматических отношений между дескрипторами, позволяет описывать факты и явления внешнего мира с большей полнотой и точностью. Это дает дополнительные возможности в отношении логического вывода, отождествления объектов, способствует снижению шума поискового. В то же время такой язык обычно более прихотлив в эксплуатации, требует более тонких процедур семантического анализа (в частности, перевода на информационный язык и поиска), нередко уступает простым языкам в быстродействии. А применение языков с недостаточной парадигматической и синтагматической полнотой и точностью часто ведут к появлению поискового шума и потерь информации при поиске, превышающих допустимые.
Поэтому для решения различных задач информационного поиска в реальных условиях необходимы разнообразные Я. и.-п. - от наиболее простых языков без парадигматических и синтагматических отношений до развитых языков с мощной грамматикой. Эти языки иногда строятся таким образом, что каждый последующий язык, обеспечивающий большую, чем предыдущий, полноту и точность описания, полностью включает в себя предыдущий, располагая, кроме того, некоторыми дополнительными средствами. Выражения подобных языков имеют одинаковую структуру, хотя и различаются по семантической силе. Множество таких Я., и.-п. наз. семейством совместимых языков. В пределах этого семейства можно легко переходить от одного языка к другому. Одна и та же программа может обслуживать разные языки (в той мере, в какой они имеют общую часть).
Напр., семействами совместимых языков являются СИНТОЛ и язык ЛХ-кодов. Поскольку совместимые языки имеют между собой много общего, они часто именуются состояниями (в СИНТОЛЕ) или уровнями (в RX-языке) единого языка. Одно из состояний СИНТОЛА включает только ключевые слова, соответствуя 1-му классу парадигматической и классу А синтагматической классификаций. Другое состояние включает ключевые слова и синтагмы, в которых фиксируется наличие парадигматического или синтагматического отношения, но не его вид, что соответствует подклассам 3.1 и Б.1. Третье состояние соответствует подклассам 3.3 и Б.2. В языке RX-кодов имеются уровни, которые соответствуют всем перечисленным классам и подклассам парадигматической и синтагматической классификаций.
Лит.; С элтон Г. Автоматическая обработка, хранение и поиск информации. Пер. с англ., М., 1973; Михайлов А. И.; Черный А. И., Гиляревский Р. С. Основы информатики. М., 1968 [библиогр. с. 728—735]; Информационно-поисковая система «БИТ». К., 1968 [библиогр. с. 215—217]; Perry J. W., Kent А. Tools for machine literature searching. New York, 1958; Thesaurus of engineering terms. New York, 1965; Coy aud M. Introduction a l’etude des langages documentaires. Paris, 1966 [библиогр. с. 135—143]; Крое P. К., Гардэн Ж. К., Леви Ф. СИНТОЛ — универсальная модель системы информационного поиска. Пер. с франц. М., 1968; Soergе1 D. Klassifikationssysteme und Thesauri. Eine Anleitung zur Herstellung von Klassifikations-systemen und Thesauri im Bereich der Dokumentation. Frankfurt am Main, 1969; Сборник переводов по вопросам информационной теории и практики, № 17. М., 1970 [библиогр. с. 101—104]. д. Ф. Скороходько.