АННОТИРОВАНИЕ АВТОМАТИЧЕСКОЕ
— процесс составления краткого содержания (аннотации) документа с помощью вычислительной машины. Существует два подхода к решению проблемы А. а.: 1) логико-грамматический, опирающийся на полный синтаксический и логический анализ обрабатываемого документа; 2) статистико-вероятностный, основанный на использовании корреляций между частотой элементов текста и их значением. Необходимое условие реализации логико-грамматического подхода — предварительный синтаксический анализ текста, в результате которого каждому слову приписываются сведения о его связях с др. словами. При этом подходе наиболее употребителен метод А. а., состоящий в приведении предложений к стандартному виду: субъект—предикат — группы зависящих от них слов. Из стандартных предложений выделяются структуры типа субъект-группа зависящих от него слов. Предполагается, что повторение этих структур свидетельствует о их смысловой ценности. При сравнении повторяющихся структур они стандартизуются с помощью списков синонимов.
Блок-схема системы автоматичоекого аннотирования, основанной на статистическом методе.
Набор именных словосочетаний, повторяющихся в тексте, составляет каркас аннотаций. Статистико-вероятностные методы А. а. основаны на двух гипотезах: 1) самые частые слова текста наиболее значимы; 2) отрезки текста, содержащие наибольшее к-во частых слов, наиболее значимы (рис.). Логико-грамматические
методы А. а. далеки от практической реализации в связи с трудностью полной автоматизации синтаксического анализа. Статистиковероятностные методы А. а. легко реализуемы. При использовании их в результате А. а. получается не связный текст, а набор разрозненных слов и словосочетаний (см. Индексирование). Для их соединения в связные предложения разрабатываются спец. алгоритмы. В информационной практике используются системы А. а., основанные на статистико-вероятностных методах. См. также Реферирование автоматическое. в. А. Москович.