4.1. Группы риска и сравнительные испытания

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА

Статистические методы классификации применяются при распознавании сигналов, диагностике состояний сложных технических систем и человека, а также при прогнозировании будущих отказов, неисправностей, заболеваний. Использование статистических методов для решения принципиально новых для конкретной области знания задач всегда носит творческий характер и часто требует приспособления и развития соответствующего математического аппарата. Поэтому при изложении материала большое внимание уделяется как методическим особенностям применения описанных в предшествующих главах методов, так и изложению математического инструментария, направленного на решение тех же задач, что и классификация, с обязательным указанием связи между методами.

4.1. Группы риска и сравнительные испытания

4.1.1. Группы риска.

Пусть группа объектов периодически подвергается осмотру с целью обнаружения неисправных объектов, а также выделения объектов, которые исправны в момент осмотра, но могут выйти из строя до следующего осмотра Для решения поставленной задачи, если, конечно, нет прямых надежных индикаторов возникновения в будущем неисправности, можно воспользоваться методом статистической классификации. Пусть X — результат осмотра исправного объекта. Тогда на основании значения X можно попытаться принять одно из двух решений (гипотез): «объект останется исправным до следующего осмотра» или — «объект выйдет из строя до следующего осмотра». Если условные распределения основательно пересекаются, а это типичный случай, то ошибки классификации (см. § 1.2) будут высокими и такой подход индивидуального предсказания судьбы объекта малопродуктивен. Вместе с тем можно оценить и тем самым отнести соответствующий объект к одной из групп риска Такой прогноз, в отличие от первого, иногда называют групповым (не путать с групповой классификацией). Оба метода прогноза почти не отличаются по используемому математическому аппарату, различны лишь формы представления результатов (см. § 1.2). Однако с точки зрения приложения они принципиально различны. Нечетким предсказанием индивидуальной судьбы объекта (в терминах ) воспользоваться трудно. В то же время указание группы риска весьма информативно. В самом деле, если есть ограниченный дополнительный ресурс для более полного обследования объектов, то его, видимо, целесообразно применить к объектам, принадлежащим к группам более высокого риска. Так, например, поступают при диспансеризации населения. При лечении профилактические средства с заметным побочным действием также стоит давать только тем больным, у которых ожидаемый основной эффект лекарства будет выше ожидаемого ущерба от побочных действий, т. е. и здесь учет крайне существен

В разобранной выше задаче лишь немного отклонились от традиционной формы представления результатов и сразу же получили очень интересные варианты практического использования ДА.

4.1.2. Индикаторы и факторы риска.

Предположим, что в разобранной в предыдущем пункте задаче хотим найти компоненты X, наиболее тесно связанные с осуществлением события .

С помощью описанных в предыдущих главах методов (см. § 1.4, 2.5) можем выделить группу переменных такую, что сила прогноза при расширении набора до исходного X на имеющемся в распоряжении материале статистически значимо не увеличивается. Переменные, входящие в X, называют риск-индикаторами При этом в слове индикатор выделяются два смысловых оттенка: 1) на индикатор не всегда можно воздействовать, например, как на возраст объекта и 2) индикатор не обязательно причинно обусловливает возникновение Он, например, может быть только связан с внутренним механизмом, порождающим

Перевод части индикаторов в факторы риска. Предположим, что можно воздействовать на часть риск-индикаторов, например изменяя их значение на новые в то время как остальные риск-индикаторы остаются без изменения. Обозначим вектор риск-индикаторов для i-го объекта после изменения. Если после различных воздействий частота события останется сопоставимой с где условная вероятность подсчитывается по установленным ранее для X формулам и профессиональный анализ показывает, что переменные можно рассматривать как непосредственные составляющие механизма возникновения то эти переменные называют риск-факторами На этом пути были, в частности, установлены риск-факторы развития ишемической болезни сердца, послужившие основой развертывания широкой программы профилактики сердечно-сосудистых заболеваний [277, 322].

4.1.3. Сравнительные испытания.

Предположим, что кописанным в п. 4.1.1 объектам, признанным исправными при осмотре, применяются определенные воздействия с целью предотвратить их выход из строя за определенный промежуток времени. Для того чтобы эмпирически отобрать наиболее эффективное воздействие, проводятся так называемые сравнительные испытания. В простейшем случае они заключаются в следующем. Пусть требуется сравнить два воздействия: А — старое и В — новое. Из объектов образуются две по возможности близкие по свойствам группы: О — основная и К — контрольная. К объектам основной группы применяется воздействие В, а к объектам контрольной группы — воздействие А. Об эффективности воздействий судят по альтернативному признаку: остался ли объект исправным (событие ) или вышел из строя (событие ).

Вопросам формирования сравниваемых групп посвящена обширная статистическая литература [85, 102]. Тем не менее добиться полного сходства групп даже при умеренной размерности X удается редко. Это обстоятельство мешает интерпретации результатов испытаний, поскольку априори известно, что зависит от X.

В случае, когда заранее известны риск-группы при старом воздействии , поправку на неоднородность основной и контрольной I рупп сделать не трудно. Для этого достаточно оценить разность

и далее проверять гипотезу, что

Частным, но практически важным случаем «испытаний» является анализ эффективности разных воздействий на ретроспективных данных Возможность такого анализа обусловлена тем, что четкие однозначные правила назначения воздействия в зависимости от X обычно или отсутствуют, или всил разных причин не соблюдаются и поэтому в банках данных накапливается довольно обширная информация о различных сочетаниях пар (X, воздействие) и соответствующих исходах. Многочисленные примеры проведенных исследований показывают, что на основании априорных профессиональных соображений исследователь может разделить объекты на относительно однородные группы риска — страты и проводить анализ эффективности внутри соответствующих групп [85, 1791 Видимо, целесообразно включать проведение подобного анализа в качестве специальной задачи информационных технологических систем с целью автоматизированного подбора гипотез для дальнейшего их анализа исследователем.

В случае, когда риск-группы априори не известны и не могут быть убедительно назначены исследователем, приходится рассматривать полную математическую модель ситуации.

Простейшая модель влияния X и воздействия на условную вероятность имеет вид:

где — неизвестные параметры. Проверяемая в испытании гипотеза заключается в том, что эффект сравниваемых воздействий тождествен, т. е. что

Очевидно, при более эффективно новое воздействие, а при — старое. Предположения (4.3) и (4.4) надо дополнить предположениями, что при заданных X и V результаты испытаний независимы и что распределения X в основной и контрольной группах независимы между собой, и задать эти распределения. Например, положив, что в основной группе

а в контрольной

где — неизвестные параметры, причем . Базовые предположения (4.3)-(4.6) погрузим в одну из асимптотик: традиционную или растущей размерности (см. п.2.2.1). Можно также пополнить модель упрощающими предположениями о взаимной близости векторов и о структуре .

Сводку практических рекомендаций по методам интерпретации результатов сравнительных испытаний с учетом возможного несовпадения распределений в контрольной и основной группах можно найти в [179].

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
ВВЕДЕНИЕ. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ. СУЩНОСТЬ И ТИПОЛОГИЗАЦИЯ ЗАДАЧ, ОБЛАСТИ ПРИМЕНЕНИЯ
B.1. Сущность задач классификации и снижения размерности и некоторые базовые идеи аппарата многомерного статистического анализа
В.2. Типовые задачи практики и конечные прикладные цели исследований, использующих методы классификации и снижения размерности
В.3. Типологизация математических постановок задач классификации и снижения размерности
В.4. Основные этапы в решении задач классификации и снижения размерности
ВЫВОДЫ
Раздел I. ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАННЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ
1.1.1. Критерий отношения правдоподобия как правило классификации.
1.1.2. Основные математические модели.
1.1.3. Классификация посредством задания границы критической области.
1.1.4. Функция потерь.
1.1.5. Другие многомерные распределения.
1.2. Характеристики качества классификации
1.2.2. Изменение порога критерия.
1.2.3. Условная вероятность быть случаем.
1.2.4. Аналитические меры разделимости распределений.
1.3. Два класса, заданные генеральными совокупностями
1.3.2. Древообразные классификаторы.
1.3.3. Метод потенциальных функций.
1.3.4. Поиск характерных закономерностей.
1.3.5. Коллективы решающих правил.
1.4. Отбор информативных переменных
1.4.2. Функции потерь.
1.4.3. Схемы последовательного испытания наборов признаков.
1.5. Три и более полностью определенных класса
1.5.2. Модель нескольких многомерных нормальных распределений с общей ковариационной матрицей.
1.5.3. Упорядоченные классы.
ВЫВОДЫ
Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ)
2.1. Базовые понятия дискриминантного анализа
2.1.2. Основные виды ошибок.
2.1.3. Функции потерь.
2.2. Методы изучения алгоритмов ДА
2.2.2. Инвариантность и подобие алгоритмов.
2.2.3. Методы выработки рекомендаций.
2.3. Подстановочные алгоритмы в асимптотике растущей размерности
2.4. Статистическая регуляризация оценки обратной ковариационной матрицы в линейной дискриминантной функции для модели Фишера
2.5. Отбор переменных
2.6. Метод структурной минимизации риска
ВЫВОДЫ
Глава 3. ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ)
3.1. Предварительный анализ данных
3.2. Оценивание отношения правдоподобия
3.3. Сводка рекомендаций по линейному дискриминантному анализу
3.4. Оценка качества дискриминации
3.5. Рекомендации для k >= 3 классов
ВЫВОДЫ
Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА
4.1. Группы риска и сравнительные испытания
4.2. Методы описания риска развития события
4.3. Другие применения ДА
ВЫВОДЫ
Раздел II. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛАСТЕР-АНАЛИЗА) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАСПРЕДЕЛЕНИЙ
Глава 5. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ, ИСПОЛЬЗУЕМЫЕ В МЕТОДАХ КЛАССИФИКАЦИИ БЕЗ ОБУЧЕНИЯ
5.2. Расстояния между отдельными объектами и меры близости объектов друг к другу
5.3. Расстояние между классами и мера близости классов
5.4. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оценивания параметров
ВЫВОДЫ
Глава 6. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ (ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ). РАСЩЕПЛЕНИЕ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИИ
6.1. Понятие смеси вероятностных распределений
6.2. Общая схема решения задачи автоматической классификации в рамках модели смеси распределений (сведение к схеме дискриминантного анализа)
6.3. Идентифицируемость (различимость) смесей распределений
6.4. Процедуры оценивания параметров модели смеси распределений
6.4.2. Процедуры, базирующиеся на методе моментов.
6.4.3. Другие методы оценивания параметров смеси распределений.
6.5. Рекомендации по определению «исходных позиций» алгоритмов расщепления смесей распределений
ВЫВОДЫ
Глава 7. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ОСНОВАННАЯ НА ОПИСАНИИ КЛАССОВ «ЯДРАМИ»
7.1. Эвристические алгоритмы
7.2. Алгоритмы, использующие понятие центра тяжести
7.2.2. Последовательные процедуры.
7.3. Алгоритмы с управляющими параметрами, настраиваемыми в ходе классификации
7.4. Алгоритмы метода динамических сгущений
7.4.3. Автоматическая классификация неполных данных.
7.5. Алгоритмы метода размытых множеств
7.5.2. Алгоритмы нечеткой классификации.
7.6. Алгоритмы, основанные на методе просеивания (решета)
ВЫВОДЫ
Глава 8. ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ
8.2. Методы и алгоритмы иерархической классификации
8.3. Графические представления результатов иерархической классификации
8.4. Приложения общей рекуррентной формулы для мер близости между классами
8.5. Быстрый алгоритм иерархической классификации
ВЫВОДЫ
Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ
9.1. Разделение смесей при наличии неполных обучающих выборок
9.2. Классификация при ограничениях на связи между объектами
9.3. Классификация на графах
ВЫВОДЫ
Глава 10. ТЕОРИЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ
10.1. Математическая модель алгоритма автоматической классификации (ААК)
10.2. Базисная модель алгоритма АК, основанного на описании классов ядрами
10.3. Иерархическая структура многообразия алгоритмов АК
10.4. Исследование сходимости алгоритмов АК
ВЫВОДЫ
Глава 11. ВЫБОР МЕТРИКИ И СОКРАЩЕНИЕ РАЗМЕРНОСТЕЙ В ЗАДАЧАХ КЛАСТЕР-АНАЛИЗА
11.2. Метрики для задач кластер-анализа с неколичественными переменными
11.3. Алгоритмы классификации с адаптивной метрикой
11.4. Оценка метрики с помощью частично обучающих выборок
ВЫВОДЫ
Глава 12. СРЕДСТВА ПРЕДСТАВЛЕНИЯ И ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ
12.1. Некоторые средства оценки результатов кластер-анализа
12.2. Связь между показателями качества прогноза переменных, метрикой и некоторыми критериями качества классификации в кластер-анализе
12.3. Некоторые методические рекомендации
12.4. Средства, помогающие интерпретации результатов
ВЫВОДЫ
Раздел III. СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛИЗИРУЕМОГО ПРИЗНАКОВОГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПОКАЗАТЕЛЕЙ
13.1. Сущность проблемы снижения размерности и различные методы ее решения
13.2. Определение, вычисление и основные числовые характеристики главных компонент
13.3. Экстремальные свойства главных компонент. Их интерпретация
13.4. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез
13.5. Главные компоненты в задачах классификации
13.6. Нелинейное отображение многомерных данных в пространство низкой размерности
ВЫВОДЫ
Глава 14. МОДЕЛИ И МЕТОДЫ ФАКТОРНОГО АНАЛИЗА
14.1. Сущность модели факторного анализа, его основные задачи
14.2. Каноническая модель факторного анализа
14.2.2. Вопросы идентификации модели факторного анализа.
14.2.3. Определение структуры и статистическое исследование модели факторного анализа.
14.2.4. Факторный анализ в задачах классификации.
14.3. Некоторые эвристические методы снижения размерности
14.3.2. Метод экстремальной группировки признаков.
14.3.3. Метод корреляционных плеяд.
14.3.4. Снижение размерности с помощью кластер-процедур.
ВЫВОДЫ
Глава 15. ЭКСПЕРТНО-СТАТИСТИЧЕСКИЙ МЕТОД ПОСТРОЕНИЯ ЕДИНОГО СВОДНОГО ПОКАЗАТЕЛЯ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ (КАЧЕСТВА) ОБЪЕКТА (СКАЛЯРНАЯ РЕДУКЦИЯ МНОГОКРИТЕРИАЛЬНОЙ СХЕМЫ)
15.1. Латентный единый (сводный) показатель «качества». Понятия «выходного качества» целевой функции и «входных переменных» (частных критериев)
15.2. Исходные данные
15.3. Алгоритмические и вычислительные вопросы построения неизвестной целевой функции
15.3.2. Оценивание неизвестных параметров целевой функции при балльных экспертных оценках выходного качества.
15.3.3. Оценивание неизвестных параметров целевой функции при экспертных ранжировках и парных сравнениях объектов.
15.4. Применение экспертно-статистического метода построения латентного интегрального показателя к решению практических задач
ВЫВОДЫ
Глава 16. МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ
16.1. Метрическое многомерное шкалирование
16.2. Неметрическое многомерное шкалирование [307, 261, 260, 152]
16.3. Шкалирование индивидуальных различий (ШИР)
ВЫВОДЫ
Глава 17. СРЕДСТВА АНАЛИЗА И ВИЗУАЛИЗАЦИИ НЕКОЛИЧЕСТВЕННЫХ ДАННЫХ
17.1. Анализ соответствий для двухвходовых таблиц сопряженностей
17.1.2. Проекции строк и столбцов. Связь с анализом главных компонент.
17.1.3. Интерпретация главных компонент в анализе соответствий.
17.1.4. Присвоение числовых меток строкам и столбцам.
17.2. Множественный анализ соответствий (МАС)
17.3. Алгоритмы оцифровки неколичественных переменных
ВЫВОДЫ
Раздел IV. РАЗВЕДОЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И НАГЛЯДНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ
Глава 18. РАЗВЕДОЧНЫЙ АНАЛИЗ. ЦЕЛИ, МОДЕЛИ СТРУКТУР ДАННЫХ, МЕТОДЫ И ПРИЕМЫ АНАЛИЗА
18.1. Цели разведочного анализа и модели описания структуры многомерных данных
18.2. Визуализация данных
18.3. Преобразования данных в разведочном анализе данных
18.4. Использование дополнительных (иллюстративных) переменных и объектов
18.5. Основные типы данных и методы, используемые в разведочном анализе данных
ВЫВОДЫ
Глава 19. ЦЕЛЕНАПРАВЛЕННОЕ ПРОЕЦИРОВАНИЕ МНОГОМЕРНЫХ ДАННЫХ
19.1. Цель и основные понятия целенаправленного проецирования
19.2. Проекционные индексы, подходящие для выделения кластеров
19.3. Выявление эллипсоидальной кластерной структуры (восстановление дискриминантного подпространства)
19.4. Проекционные индексы для дискриминантного анализа
19.5. Выделение аномальных наблюдений
19.6. Выделение нелинейных структур в многомерных данных
19.7. Регрессия на основе целенаправленного проецирования
19.8. Восстановление плотности и связь с томографией
19.8.2. Вычислительная томография и прикладная статистика.
19.8.3. Алгоритм восстановления плотности по ее проекциям на основе принципа минимальной вариабельности.
19.8.4. Алгоритм восстановления плотности по ее проекциям на основе принципа максимума энтропии.
19.9. Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проецирования
ВЫВОДЫ
Глава 20. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЦЕЛЕНАПРАВЛЕННОГО ПРОЕЦИРОВАНИЯ И ТОМОГРАФИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ
20.1. Проекции многомерных распределений и их свойства
20.2. Радиальные распределения
20.3. Теория процедур оптимизации проекционных индексов
ВЫВОДЫ
Глава 21. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ЗАДАЧ СОКРАЩЕНИЯ РАЗМЕРНОСТИ И КЛАССИФИКАЦИИ
21.1. Программное обеспечение прикладного статистического анализа для ПЭВМ
21.2. Проблемы и опыт создания интеллектуализированного программного обеспечения по многомерному статистическому анализу
ВЫВОДЫ
СПИСОК ЛИТЕРАТУРЫ