Главная > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

4.2. Методы описания риска развития события

4.2.1. Мгновенный риск и факторизация Кокса.

В предыдущем параграфе для описания вероятности возникновения неисправности за время от одного осмотра до другого использовалось понятие риск-группы. Но для той же цели можно использовать понятие мгновенного риска (или просто риска)

Риск и вероятность события (появление неисправности за интервал ) связаны соотношением

По аналогии с (4.7) можно ввести условный риск в момент t при условии, что в момент осмотра объект имел вектор показателей исправен в

Понятие условного риска — более тонкий инструмент для описания закономерностей возникновения неисправности, чем — понятие условной вероятности. Однако вообще говоря, требует для своей оценки заметно большего числа наблюдений.

С целью частичного преодоления этой трудности в 1972 г. Д. Кокс [206] предложил факторизовать путем представления

или

где в (4.9) — функция «возраста» объекта, а в функция времени, прошедшего после осмотра; — функция изучаемых признаков. В зависимости от соображений предметной области выбирается одна из указанных моделей. Поскольку обе модели трактуются одинаково, в дальнейшем будет рассмотрена только первая из них.

При предположении, что , где — известная функция, а — вектор неизвестных параметров, факторизация (4.9) позволяет оценивать g (X) независимо от функции h. Для этого на шкалу возраста наносятся точки соответствующие возрасту объекта в момент наступления неисправности, и для каждой точки выписывается — условная вероятность, что среди всех объектов возраста i, в исследовании неисправность наступит только у объекта при условии, что она действительно наступила у объекта возраста

где суммирование проводится по всем объектам в возрасте находившимся в исследовании. Полученные вероятности объединяются в общую функцию условного правдоподобия

Параметры оцениваются из условия максимизации Наиболее часто используется функция Процедуры оценки входят во многие статистические пакеты. Асимптотические свойства изучены пока только в традиционной асимптотике.

4.2.2. Связь между риском и линейной дискриминантной функцией.

Формула (4.8) показывает, что всегда возможен переход от риска события (возникновение неисправности) к вероятности его осуществления за заданный промежуток времени.

Проанализируем с точки зрения риск

Эта формула важна для медицинских приложений, так как достаточно хорошо описывает средний риск кардиоваскулярной смерти для лиц старше 30 лет, а — наиболее часто используемое предположение о g (X).

Пусть Ни — как прежде, гипотеза, что неисправность не наступила. Если объект был обследован в возрасте s, имел при этом вектор показателей X и пробыл в исследовании Т лег, то

С другой стороны, в классической модели Фишера дискриминантного анализа для описания той же вероятности используется логистическая функция, в которой s — возраст объекта — в момент обследования рассматривается в качестве одной из переменных

Формулы (4.12) и (4.13) похожи в том смысле, что в обеих в качестве аргумента используются линейные комбинации координат X и s, но они различны аналитически.

Если положить то для оба выражения для вероятности численно близки. Это видно из табл. 4.1, в которой приведены значения функций

Это позволяет связать оба метода и, в частности, использовать оценки, полученные с помощью дискриминантного анализа, в качестве первого приближения в итеративных процедурах оценки .

При работе с риском события информация, содержащаяся в исходных данных, используется более полно, чем при работе с вероятностью осуществления события за время Т, описывается ли она формулой (4.12) или (4.13)

Таблица 4.1

Если в факторизации (4.9) ограничено снизу, a h (t) не убывает с ростом t, то при «разрешающая» сила любого метода ДА стремится к нулю, поскольку все объекты становятся случаями При использовании функций риска это не страшно, так как при оценке параметров используется информация о том, когда объекты становятся случаями.

4.2.3. Измерение динамики силы влияния факторов.

Естественно думать, что влияние того или нного фактора или группы факторов различно в ближайшем и отдаленном периодах. Несмотря на высокую практическую важность количественного изучения динамики силы фактора или интенсивности событий, строго документированные сведения в ряде областей знания практически отсутствуют. Немалую роль в этом сыграло отсутствие до последнего времени подходящего математического аппарата, позволяющего проводить исследование при сравнительно умеренных затратах.

В [271] показано, что повышенное систолическое артериальное давание у мужчины в возрасте 45—60 лет весьма информативно в отношении коронарной смерти в ближайшие 20 месяцев, что со временем информативность падает и что она весьма мала через 90 месяцев после первоначального измерения. Ниже приводятся результаты этой работы с целью демонстрации возможностей, открываемых соответствующим математическим аппаратом.

Пусть s — возраст в момент включения субъекта в исследование, когда проводилось начальное измерение систолического артериального давления, — величина систолического артериального давления (в мм ); - нижний и верхний квартили распределения х; t — текущий возраст; — условный риск коронарной смерти для субъекта возраста t при условии, что в возрасте s он имел систолическое артериальное давление . В исследовании использованы данные из London Busmen Study, эпидемиологического исследования, направленного на выявление риск-факторов, ведущих к развитию ишемической болезни сердца.

Рис. 4.1. Сила предсказания для двух математических моделей [271]

В исследование были включены 684 мужчины в возрасте от 39 до 65 лет. Здоровье каждого из них прослеживалось в течение десяти и более лет. За это время случилось 66 кардиоваскулярных смертей. Если бы имеющиеся данные были разделены на несколько групп согласно возрасту и величине артериального давления, то численность наблюдений в каждой из получившихся групп была бы недостаточной для каких-либо выводов. Только комплексное использование всего материала на базе предположений о форме зависимости риска смерти от и t делает анализ возможным.

В качестве показателя прогностической силы использовано

Модельные предположения о

где a, b, с — неизвестные постоянные; , a , где — постоянные. Анализ можно было бы провести и без конкретизации вида , но при этом на 25 % возросла бы длина доверительных интервалов.

На рис. 4 1 показатель прогностической силы, определенный в предположении (4.14), обозначен в предположении (4.15) . Как видим, качественного различия при использовании моделей (4.14) и (4.15) нет. Предсказующая сила убывает очень быстро, уменьшаясь в два раза к концу второго года.

Общая математическая модель для изучения динамики влияния нескольких факторов строится [107] из геометрических соображений модели Фишера классического дискриминантного анализа (см. § 2.3). Пусть t, s, X определены как выше, М — вектор средних, а — ковариационная матрица X, тогда

где

неизвестные параметры модели. Асимптотические свойства модели (4.16) в асимптотике растущей размерности пока не исследованы.

Categories

1
Оглавление
email@scask.ru