Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
17.3. Алгоритмы оцифровки неколичественных переменныхОбщие принципы. Пусть имеется матрица данных X из и Рассмотрим подход, позволяющий распространить на данные такого вида методы многомерного статистического анализа: анализа главных компонент, регрессионного, дискриминантного, кластер-анализа и т. д. Суть подхода заключается в оцифровке неколичественных переменных, т. е. в присвоении категориям неколичественных переменных «разумных», в рамках решаемой задачи, числовых меток. Этот же подход пригоден и для преобразования количественных переменных, которые предварительно подвергаются квантованию, и для анализа переменных смешанной природы. Метод приписывания меток для случая только неколичественных переменных приведен в ПО, гл. 12]. Здесь формулируются критерии, подходящие для оцифровки с дальнейшим использованием преобразованной матрицы в различных видах анализа, а метод из [10, гл. 12] обобщается на случай данных смешанной природы. Критерии, на основе которых производится присвоение числовых меток, зависят от используемого метода статистического анализа. Однако все они представляют собой некоторые функционалы матрицы ковариаций (корреляций) в пространстве оцифрованных признаков. Это связано прежде всего с тем, что матрица ковариаций (корреляций) является основным объектом, который используется методами статистического анализа. Введем теперь некоторые очевидные требования, которым должны удовлетворять наборы числовых меток, получаемые в результате работы процедуры оцифровки. Пусть
где Пусть теперь
Выполнение условий, (17.30), (17.30') гарантирует, в частности, от появления тривиальных наборов меток, когда числовые метки, присваиваемые градациям признака Оцифровка для сокращения размерностей, статистического исследования зависимостей, кластер-анализа. В этом случае категориям неколичесгвенных признаков приписываются числовые метки, удовлетворяющие условиям (17.30) и максимизирующие величину
где Пусть теперь множество переменных Критерий
где
размера (см. 17.1.1). Пусть теперь признак Тогда
Вычислительная процедура. Числовые метки, максимизирующие величину критерия Пример 17.4. [66] Рассмотрим применение метода оцифровки по критерию (17.31) к данным табл. 17.2, представляющей результаты наблюдения за 12 посетителями кафе (пример условный). Переменные имеют следующий смысл: —соответственно закуска, блюдо и напиток, выбранные посетителем. Таблица 17.2
Переменные Возможно использование переменных, которые не будут подвергаться оцифровке, но их вклад в критерий (17.31) будет учитываться, В данном примере это количественные переменные МАТРИЦА КОРРЕЛЯЦИЙ ДО ПРЕОБРАЗОВАНИЯ
СУММА КВАДРАТОВ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ 2.0191 МАТРИЦА КОРРЕЛЯЦИЙ ПОСЛЕ ПРЕОБРАЗОВАНИЯ
СУММА КВАДРАТОВ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ 4.8241 ТАБЛИЦА НАЙДЕННЫХ МЕТОК
Из сравнения матриц корреляций до и после оцифровки следует, что после оцифровки значения некоторых коэффициентов корреляции значительно возросли по абсолютной величине. Так, величина Оцифровка для линейного дискриминантного анализа. Для задач классификации оцифровка иеколичественных признаков производится по критерию, предложенному в 1681. Этот критерий построен на том, что основной информацией, которую используют линейные дискриминантные функции для классификации, являются различия средних значений признаков в разных классах, измеренные в единицах дисперсии (см. гл. 1). Другие компоненты информации о различиях между распределениями классов используются линейной дискриминантной функцией в меньшей степени. Исходя их этого в качестве набора числовых меток для категорий некоторого признака
где Введем в рассмотрение таблицу сопряженности F, столбцы которой соответствуют категориям классификационной неременной, а строки — категориям признака Элемент Теперь величины
Вводя матрицы
мы можем записать
В новых обозначениях критерий (17.32) можно записать в виде
Очевидно, задача поиска максимума С, а потому может быть сведена к задаче на условный экстремум
при условиях
Но эта задача эквивалентна рассмотренной в п. 17.1.2 задаче на собственные числа
Как показано в гл. 2, при объемах выборки, сравнимых с числом переменных Пусть таблица сопряженностей F с строками и Теперь для построения критерия можно воспользоваться, например, результатами по распределению максимального собственного числа матрицы Уишарта [241] в асимптотике Колмогорова (см. гл. 2). Используя эти результаты, получаем, что при Это приводит к следующей формулировке критерия — переменную
где В случае, когда
|
1 |
Оглавление
|