В.3. Типологизация математических постановок задач классификации и снижения размерности
Целесообразность и эффективность применения тех или иных методов классификации и снижения размерности так же, как их предмегная осмысленность, обусловлены конкретизацией базовой математической модели, т. е. математической постановкой задачи. Определяющим моментом в выборе математической постановки задачи является ответ на вопрос, на какой исходной информации строится модель.
При этом исходная информация складывается из двух частей: 1) из априорных сведений об исследуемых классах; 2) из информации статистической, выборочной, т. е. так называемых обучающих или частично обучающих выборок (точные определения см. в § 2.1 и 9.1). Априорные сведения об исследуемых генеральных совокупностях относятся обычно к виду или некоторым общим свойствам закона распределения исследуемого случайного вектора X в соответствующем пространстве и получаются либо из теоретических, предметно-профессиональных соображений о природе исследуемого объекта, либо как результат предварительных исследований. Получение выборочной исходной информации в экономике и социологии, как правило, связано с организацией системы экспертных оценок или с проведением специального предварительного этапа, посвященного решению задачи простой типологизации анализируемых объектов в пространстве результирующих показателей (см. выше пример В.1).
Классификация задач разбиения объектов на однородные группы (в зависимости от наличия априорной и предварительной выборочной информации) и соответствующее распределение описания аппарата решения этих задач по главам и параграфам данной книги представлены в табл. В.4.
Математическая модель, лежащая в основе построения того или иного метода снижения размерности, включает в себя обычно три основных компонента
1. Форма задания исходной информации. Речь идет об ответе на следующие вопросы: а) в каком виде (т. е. в виде (В.1), (В.1') или еще каком-либо) задана описательная информация об объектах? б) имеется ли среди исходных статистических данных обучающая информация, т. е. какие-либо сведения об анализируемом результирующем свойстве? в) если обучающая информация присутствует в исходных статистических данных, то в какой именно форме она представлена?
Это могут быть, в частности, в привязке к объекту
: значения «зависимой» количественной переменной («отклика») у, в моделях регрессии; номер однородного по анализируемому свойству класса, к которому относится объект
в задаче классификации; порядковый номер (ранг) объекта О, в ряду всех объектов, упорядоченных по степени проявления рассматриваемого свойства, в задачах анализа предпочтений и построения упорядоченных типологизаций; наконец, значения
набора результирующих признаков, характеризующих анализируемое в классификационной задаче свойство (см. пример В.1).
2. Тип оптимизируемого критерия
информативности искомого набора признаков
Как уже отмечалось, критерий информативности может быть ориентирован на достижение разных целей.
Следует выделить целый класс критериев автоинформативности, т. е. критериев, оптимизация которых приводит к набору вспомогательных переменных
позволяющих максимально точно воспроизводить (в том или ином смысле, в зависимости от конкретного вида критерия) информацию, содержащуюся в описательном массиве данных типа (В.1) или
. Если описательная информация представлена в виде матрицы «объект — свойство» (В.1), то речь идет о максимально точном восстановлении
значений исходных переменных
по значениям существенно меньшего числа (р
) вспомогательных переменных
Если же описательная информация представлена в виде матрицы попарных сравнений объектов
, то речь идет о максимально точном воспроизведении
элементов этой матрицы
по значениям существенно меньшего числа
вспомогательных переменных
.
Будем называть критериями внешней информативности (имеется в виду информативность, внешняя по отношению к информации, содержащейся в описательном массиве
) или
такие критерии
которые нацелены на поиск экономных наборов вспомогательных переменных
обеспечивающих максимально точное воспроизведение (по значениям Z, а значит в конечном счете по значениям X) информации, относящейся к результирующему признаку (варианты ее задания перечислены выше, в
).
3. Класс
допустимых преобразований исходных. признаков X. Вспомогательные признаки
в случае представления исходной описательной информации в форме матрицы «объект — свойство» (т. е. в виде
) конструируются в виде функций от X, т. е.
. Как обычно в таких ситуациях, чтобы обеспечить содержательность и конструктивную реализуемость решения оптимизационной задачи
следует предварительно договориться об ограниченном классе допустимых решений
, в рамках которого эта оптимизационная задача будет решаться. Очевидно, от выбора
будет существенно зависеть и получаемое решение
упомянутой оптимизационной задачи.
Итак, следуя предложенной выше логике, мы должны были бы произвести типологизацию задач снижения размерности по трем «входам» (или «срезам»): форме задания исходной информации, типу (смыслу) оптимизируемого критерия информативности и классу допустимых преобразований исходных переменных. Однако в предлагаемой ниже форме представления результатов типологизации задач снижения размерности (табл. В.5) эти принципы реализованы в упрощенном виде за счет следующих двух практических соображений: 1) подавляющее большинство методов снижения размерности базируется на линейных моделях, т. е. класс допустимых преобразований
— это класс линейных (как правило, подходящим образом нормированных) преобразований исходных признаков
(в книге нелинейным преобразованиям посвящены лишь § 13.6 и 17.3); 2) спецификация формы задания исходной информации связана со спецификацией смысловой нацеленности критерия информативности, а поэтому их удобнее давать в общей графе.
Данная в табл. В.5 типологизация, как и всякая иная классификация, не претендует на исчерпывающую полноту.
Продолжение табл. В.5
Заметим, что пункт 9 этой таблицы повторяет, по существу, пункт 4, они отличаются только интерпретацией исходных данных вида (В.1') и соответственно конечными прикладными целями исследования.