Пред.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
21.2. Проблемы и опыт создания интеллектуализированного программного обеспечения по многомерному статистическому анализу21.2.1. Что такое «интеллектуализация программного обеспечения» и почему она нужна в прикладной статистике.Как известно, конечной целью общей программы разработки ЭВМ пятого поколения является создание компьютеров, в которых будет реализован такой резкий скачок их интеллектуальных возможностей, в результате чего машина сможет непосредственно «понимать» задачу, поставленную перед ней непрофессиональным пользователем на естественном языке, т. е. с помощью речи, чертежей, таем, графиков и т.п. В этой общей программе можно выделить четыре основных направления разработок: 1) развитие элементной базы (в частности, уже сегодня реально решение задачи достижения плотности «упаковки» порядка нескольких тысяч вентилей на одном кристалле); 2) разработка новой архитектуры (и в первую очередь архитектуры с многими параллельными потоками команд и обрабатываемых данных, предусматривающей, в частности, использование спецпроцессоров); 3) совершенствование программной технологии (и в частности, разработка языков высокого уровня для параллельной обработки данных); 4) интеллектуализация, т. е. оснащение ЭВМ системой решения задач и логического мышления, обеспечивающей способность машины к самообучению, ассоциативной обработке информации и получению логических выводов, что в конечном счете позволит резко повысить уровень «дружелюбия» машины по отношению к пользователю. Именно в русле ключевых задач пятого направления лежат проблемы разного уровня интеллектуализации прикладного (проблемно- и методо-ориентированного) программного обеспечения (ППО). Экспертные системы принято относить к одной из основных форм высшего уровня интеллектуализации ППО. Их создание связано в первую очередь с разработкой методов и средств формализации и ввода знаний в компьютерные системы (круг этих вопросов составляет содержание специальной дисциплины так называемой «инженерии знаний») и манипулирования введенными знаниями. Таким образом, проблематику, связанную с разработкой экспертных систем, можна отнести к кругу ключевых вопросов решения общей программы создания ЭВМ пятого поколения. Однако следует подчеркнуть разницу в уровне дружелюбия, характеризующем экспертную систему и ЭВМ пятого поколения: услугами последней смогут пользоваться лица, не имеющие опыта работы с ЭВМ, в то время как для работы с экспертной системой все-таки должна быть определенная профессиональная подготовка. В дополнение к сказанному необходимо остановиться на еще одном факторе, стимулирующем развитие работ в области создания именно статистических экспертных систем (СЭС). Дело в том, что бурно возрастающие объемы информации, требующие грамотной статистической обработки, и почти столь же интенсивно растущее количество промышленного (и коммерчески распространяемого) статистического программного обеспечения (СПО), в основном в виде специализированных пакетов и библиотек (см., например, [309]), находятся в явном дисбалансе с относительно медленно растущей численностью квалифицированных специалистов в области прикладной статистики. Это общая тенденция, но в СССР она проявляется особенно остро. В результате катастрофически нарастающее число лиц, не являющихся специалистами в области статистического анализа данных, использует СПО независимо от того, получили ли они одобрение специалистов по прикладной статистике и нужно ли это для успешного решения стоящих перед ним задач. Это в свою очередь является причиной развития опасного процесса роста доли неквалифицированного, порой безграмотно-спекулятивного использования СПО, что приводит к дискредитации аппарата прикладной статистики, наносит вред делу. Распространение опыта специалистов по прикладной статистике в виде СЭС, нацеленных на подсказки и машинное ассистирование, в первую очередь в области предмодельного (разведочного) анализа данных, выбора подходящих моделей и нужной последовательности применяемых методов, интерпретации промежуточных и конечных результатов статистического анализа, позволит в какой-то мере ослабить развитие упомянутого опасного процесса роста неквалифицированного использования СПО и смягчить причину этого процесса - дисбаланса между потребностью в квалифицированных специалистах по прикладной статистике и их фактическим наличием. И наконец, о социальном аспекте проблемы создания СЭС. В этой связи следует упомянуть о наличии (в рядах специалистов по прикладной статистике) определенной доли скептиков и даже явных противников, которые считают, что СЭС снижают потребность в знаниях живых специалистов, в какой-то мере заменяют и вытесняют их, выступают в качестве их конкурентов; следовательно, необходимо устраниться от участия в работах по созданию СЭС. В действительности СЭС позволяет существенно повысить лишь средний, так сказать «ширпотребовский», уровень использования статистических методов анализа данных. Им в настоящее время обладает выросшая в последние десятилетия целая армия особого рода пользователей — «смежников», которые, как правило, «понемногу» ориентируются и в предметной области, в рамках которой решаются соответствующие статистические задачи (в экономике, социологии, медицине, геологии, технике и т.д.), и в инструментарии прикладной статистики, не являясь профессионалами ни там, ни здесь. Вот для этой армии работников кондиционные СЭС действительно представляют угрозу, так как при наличии хороших СЭС этих работников с пользой для дела целесообразно заменить специалистами-профессионалами соответствующих предметных областей. Что касается профессионалов-статистиков, то создание и распространение СЭС лишь позволит высвободить часть их рабочего времени, отводимого для выполнения функций специалиста средней квалификации (в основном рутинного характера), и переключить его на решение задач более высокого профессионального уровня. Если к этому добавить продуманную систему экономического стимулирования работ профессионалов-статистиков в области создания СЭС, то их заинтересованность в развитии этих работ станет не только профессионально-органичной, но и активной 21.2.2. 21.2.2. Интеллектуальные возможности статистической экспертной системы и основные вопросы, возникающие при ее создании.Создатели большинства известных к настоящему времени статистических экспертных систем ставили перед собой задачу обеспечить пользователю СЭС машинное ассистирование последующему кругу вопросов: 1) подсказки по существующим литературным, методическим и программным материалам, относящимся к специфике решаемой задачи, 2) советы в выработке адекватных исходных допущений о природе обрабатываемых данных и в выборе общего вида модели; 3) предложение «меню» подходящих методов статистической обработки с пояснением (в случае запроса пользователя) их сущности, особенностей, сфер применимости; 4) подсказки в построении технологической цепочки статистических процедур и алгоритмов, из которых должна состоять основная обрабатывающая (счетная) программа, и ее автоматическая реализация на ЭВМ; 5) помощь в проведении осмысления и интерпретации промежуточных и конечных результатов статистического анализа и (в случае необходимости) в выработке корректирующих управляющих команд к проведению дальнейшего статистического анализа; 6) помощь в выборе форм представления результатов проведенного статистического анализа Основной круг пользователей, на который рассчитаны подобные СЭС. это прикладные статистики и математики разного уровня квалификации, а также специалисты предметных областей (экономисты, социологи, медики, инженеры и т. д.), обладающие вероятностно-статистической подготовкой в объеме экономического или технического вуза. В процессе создания СЭС разработчикам приходится последовательно анализировать следующие вопросы (и уточнять их решение): а) На какого именно пользователя (предметная область, уровень квалификации) ориентирована создаваемая статистическая экспертная система, каковы конечные прикладные цели разработки и требования к уровню ее интеллектуализации? б) Какова структура функционального наполнения и сценария диалога СЭС? в) Какова главная концептуальная направленность (базовый методологический принцип) создаваемого машинного ассистирования (консультации в выборе и реализации используемых статистических методов, помощь в выборе стратегии статистического исследования и т. д.)? г) Какие именно технические средства целесообразно привлечь для реализации создаваемой СЭС? д) Какие типовые и оригинальные программные средства и алгоритмические языки необходимы для создания СЭС? е) Какие средства интеллектуального ассистирования и интерактивного режима необходимы для построения СЭС? ж) В какой мере возможно использование существующих, а в какой — необходима разработка новых методов и средств формализации и ввода знаний в компьютерные системы, манипулирования введенными знаниями? з) Как проводить апостериорную оценку уровня интеллектуализации созданной СЭС? 21.2.3. Серия методо-ориентированных статистических экспертных систем (серия МОСЭС).Серия методо-ориентированных статистических экспертных систем состоит из определенного числа автономных СЭС, каждая из которых может быть использована для решения задач различных предметных областей (экономики, социологии, медицины, техники и т. п.), объединяемых лишь общностью необходимого для их решения статистического инструментария. Другими словами, каждая отдельная экспертная система серии реализует статистический инструментарий одного из разделов прикладной статистики: СЭС по регрессионному анализу, СЭС по классификации объектов и признаков, СЭС по разведочному статистическому анализу и т. п., и в этом смысле может быть отнесена к методо-ориентированным. Допускается включение в серию и отдельных проблемно- и методо-ориентированных СЭС, т. е. СЭС, предназначенных для решения задач определенной предметной области. Но при этом они требуют использования лишь однородного статистического инструментария (например, в экономике это могут быть СЭС по решению систем одновременных эконометрических уравнений или по построению и анализу производственных функций: обе эти системы основаны, в инструментальном плане, на статистическом аппарате регрессионного анализа и анализа временных рядов). Общность различных автономных СЭС, составляющих серию, заключается в их совместимости, а также в возможности расширяемости серии. Совместимость различных компонентов серии состоит в одинаковой ориентации на тип пользователя и уровень интеллектуализации; общности базового методологического принципа создаваемого в СЭС машинного ассистирования; общности технических и программно-инструментальных средств, на базе которых создается СЭС; возможности взаимных ссылок (т. е., например, пользователь СЭС по регрессионному анализу в процессе диалога с машиной может получить от нее на какой-то стадии решения своей задачи совет произвести такю-то процедуру статистической обработки с помощью, скажем, СЭС по классификации из данной серии). Возможность расширяемости серии, т. е. ее пополнения новыми СЭС, сопряжена лишь с необходимостью соблюдения при конструировании новой СЭС вышеупомянутых условий совместимости. Ниже приводится краткое описание функционального наполнения компонентов серии методо-ориентированных экспертных систем — «Серии МОСЭС». При выборе разделов прикладного статистического анализа разработчики руководствовались, помимо профессиональных пристрастий и имеющихся научных заделов, интересами экономических и социально-экономических приложений. 1. МОСЭС-АВР — методо-ориентированная статистическая экспертная система по анализу временных рядов (см. например, [12, гл 12, 17] и др.). Необходимость текущего, оперативного анализа динамики показателей, характеризующих состояние или функционирование системы (экономической, технической и т.п.) - одна из наиболее распространенных черт характера деятельности многомиллионной армии плановых и управленческих работников на разных иерархических уровнях экономики. Такого же типа задачи постоянно возникают и в разнообразной практике исследовательской деятельности. Здесь и задачи сглаживания временных рядов, их разложения на трендовую, периодическую (сезонную) и случайную составляющие, их экстраполяции (прогноз), улавливания моментов и характера резких структурных сдвигов и т.д. Именно на решение таких задач нацелена МОСЭС-АВР. 2. МОСЭС-РАЗВАД — методо-ориентированная статистическая экспертная система по разведочному анализу данных. В практике статистических исследований сложилась печальная традиция (ей, правда, можно найти объективное историческое объяснение), в соответствии с которой важнейший, ключевой этап формирования и обоснования исходных рабочих допущений, закладываемых в основание модели генерирования обрабатываемых статистических данных, как правило, игнорировался Схема подобных исследований строилась примерно так - «будем полагать (или «есть основания считать»), что анализируемая регрессионная зависимость линейна и характеризуется независимыми и нормально распределенными случайными остатками Тогда...». На самом деле обрабатываемые статистические данные могут быть не только не нормальными и не независимыми, но и не однородными (в регрессионном смысле) Именно мимо таких «натяжек» в исходных допущениях и приходилось проходить исследователям Интенсивно развиваемый в последние 10—15 лет аппарат разведочного анализа и, в частности, такие его методы, как целенаправленное проецирование многомерных данных, как раз и нацелены на всестороннее предварительное «прощупывание» исходных данных с целью формирования адекватных рабочих предположений об их вероятностной и геометрической природе, о механизме их генерирования К настоящему времени в мире имеются считанные единицы программных продуктов, реализующих этот аппарат (см., например, [143]), и ни одной (по нашим сведениям) экспертной системы Сказанное мотивирует выбор разведочного анализа в качестве «начинки» для одного из компонентов «Серии МОСЭС». В МОСЭС-РАЗВАД, в частности, реализованы методология и значительная часть математического инструментария, описанного в разделах III и IV данной книги. 3 МОСЭС-РЕГРАН — методо-ориентированная статистическая экспертная система по регрессионному анализу. Статистический аппарат, позволяющий выявлять и описывать зависимость некоторого количественного результирующего показателя от набора объясняющих переменных, составляет содержание регрессионного анализа и относится, бесспорно, к наиболее широко и часто эксплуатируемому в разнообразных приложениях статистическому инструментарию Особая актуальность интерактивного диалогового режима общения с ЭВМ в процессе использования этого аппарата связана с реализацией таких его слабо формализованных этапов, как подбор подходящих преобразований для переменных модели, выбор ее общего вида, исследование явлени я мультиколлинеарности, анализ влияния резко выделяющихся наблюдений и т.п. Именно в эти моменты «беседа» с СЭС и ее подсказки особенно ценны для пользователя В обоснование мотивировки выбора этого раздела прикладной статистики в качестве «начинки» одного из компонентов «Серии МОСЭС» следует включить и необходимость программно-вычислительной реализации последних теоретикометодических разработок в данной области и весьма высокую частоту ссылок на этот раздел других компонентов «Серии МОСЭС» В МОСЭС-РЕГРАН реализованы методология и математический инструментарий, описанные в [12] 4 МОСЭС-КЛАСС — методо-ориентированная статистическая экспертная система по классификации объектов и признаков Наряду с регрессионным анализом статистические методы классификации (распознавания образов, дискриминантного анализа, автоматической классификации, кластер-анализа и т. п.) относятся к наиболее широко и часто эксплуатируемому в приложениях, и в первую очередь в экономических и социально-экономических приложениях, статистическому инструментарию Задачи выявления типологии и типообразующих признаков, технической и медицинской диагностики, предварительной обработки массивов информации с целью их разделения на однородные (в определенном смысле) порции и многие др. обслуживаются методами именно этого раздела ПСА Продвинутость отечественных теоретико-методических разработок в данной области позволяет рассчитывать на достаточно высокую конкурентоспособность (по меньшей мере но своему функциональному наполнению) данного программного продукта В нем, в частности, реализованы методология и математический инструментарий, описанные в разделах I и II данной книги 5 МОСЭС-СЭУ — проблемно- и методо-ориентированная статистическая экспертная система по решению и анализу систем одновременных эконометрических уравнений. В ней реализованы методология и математический инструментарий, описанные в [12, гл 141. 6 МОСЭС-ПАПРОФ — проблемно- и методо-ориентированная статистическая экспертная система по построению и анализу производственных функций. Производственные функции, как известно, позволяют в сжатой математической форме представить характерные для анализируемой экономической системы (предприятия, отрасли, всего народного хозяйства) соотношения между объемом выпускаемой продукции, с одной стороны, и размерами основных производственных ресурсов (включая факторы научно-технического прогресса) — с другой. Используемый для их построения и анализа статистический аппарат — это регрессионный анализ и анализ временных рядов. Конечный пользователь «Серии МОСЭС» и характер ее интеллектуализации. «Серия МОСЭС» адресуется как статистику, так и пользователю нестатистику, который, с одной стороны, уже располагает постановкой задачи и четко представляет себе конечные прикладные цели исследования, а с другой стороны, может иметь лишь общее поверхностное представление об аппарате прикладной статистики (на уровне знания основных определений и понятий, таких, как модель регрессии и назначение регрессионного анализа, временный ряд и его тренд, содержание задачи классификации в условиях наличия или отсутствия обучающих выборок, многомерное наблюдение и его проекция на плоскость и т. п.). В эту категорию пользователей попадает, в частности, значительная доля (более 50 %) специалистов той предметной области, к которой относится решаемая задача. Таким образом, среди пользователей «Серии МОСЭС» могут быть как статистики (разного уровня квалификации), так и нестатистики — специалисты соответствующих предметных областей (экономисты, социологи, инженеры, медики и т.д.), имеющие минимальную статистическую подготовку. При пояснении характера и направленности интеллектуализации описываемых МОСЭС примем следующее условное разложение технологии статистического исследования на элементы. Элемент 1 (стратегически-постановочный): уточнение постановки задачи и конечных прикладных целей исследования. Элемент 2 (тактико-методический): выбор подходящего статистического инструментария, включая определение состава и последовательности реализации статистических процедур, используемых для обработки исходных данных. Элемент 3 (счетный): вычислительная реализация выбранного комплекса методов статистического анализа данных. Элемент 4 (интерпретационный): интерпретация промежуточных и итоговых результатов статистической обработки данных, формулировка выводов, в том числе по поводу направлений дальнейших исследований. Из этих четырех основных элементов технологии статистического исследования экспертные системы «Серии МОСЭС» претендуют на частичную автоматизацию и машинное ассистирование лишь трех последних: тактико-методического, счетного и интерпретационного. При этом акцент делается на помощь пользователю в выработке адекватных исходных допущений (гипотез) о вероятностной и геометрической природе обрабатываемых статистических данных и в правильном подборе и описании модели, генерирующей эти данные («МОСЭС-РАЗВАД» целиком предназначена для решения этих вопросов, а в остальных компонентах «Серии» этому аспекту уделяется существенное внимание). Общая логическая схема построения диалога «пользователь-ЭВМ». Диалог строится в компонентах «Серии» по принципу «от общего к все более узко методо-ориентиро-ванному», а именно: на «входе» в систему-«паспорт» задачи; 1-й уровень диалога: ЭВМ — «имеет ли задача статистическую природу?»; пользователь — «да» или «нет»; 2-й уровень диалога: если «нет», работа СЭС заканчивается; если «да», то к какой из нижеперечисленных (в «меню») областей ПСА она относится: регрессионный анализ, классификация, временные ряды и т.д.; 3-й уровень диалога: (при работе, напркмер, с системой «МОСЭС-КЛАСС», т. е. при ответе «классификация» на предыдущем уровне): «в какой форме представлены исходные данные?» «меню» возможных форм; 4-й уровень диалога: (если данные представлены в виде многомерных наблюдений): «располагаете ли Вы обучающими выборками?» 5-й уровень диалога: если «нет», то «известно ли Вам число искомых классов?»; 6-й уровень диалога: если «нет», то «желаете ли Вы произвести целенаправленное проецирование исходных данных с целью выработки гипотез о возможном числе классов?», 7-й уровень диалога: если «да», то обратитесь к «МОСЭС-РАЗВАД» и т. д. Каждый вопрос ЭВМ сопровождается вспомогательным «примечанием — вопросом» типа: «если какое-нибудь из понятий, участвующих в нашем вопросе, требует разъяснения, сделайте соответствующий запрос». Инструментальные средства, использованные при создании «Серии МОСЭС». Каждый из компонентов «Серии МОСЭС» оперирует с базой знаний, содержащей не более 400—500 правил и утверждений. Это позволило использовать в качестве технической базы персональные компьютеры IBM PC/XT или IBM PC АТ (или полностью с ними совместимые 16-разрядные персональные ЭВМ). В качестве базовых алгоритмических языков использовались языки «С», «LISP» и некоторые другие (специальные). Операционная система — MS-DOS.
|
1 |
Оглавление
|