Главная > Прикладные методы анализа данных и знаний
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

§ 3. Некоторые варианты алгоритма ZET

3.1. Обнаружение грубых ошибок (алгоритм ZET—R)

Алгоритм ZET-R используется для обнаружения грубых ошибок в исходной таблице данных (так называемый режим редактирования таблиц). Для этого программа по очереди предсказывает все элементы таблицы и сравнивает результаты предсказания с фактически имеющимися данными. Если предсказанное значение совпадает с исходным или мало отличается от него, то это означает, что элемент хорошо согласуется с закономерностями данной части таблицы данных. Если же обнаруживается большое расхождение, то выдается сигнал о необходимости проверки данного элемента. Если он отражает уникальный факт, выпадающий из общей закономерности, то его истинность нужно подтвердить. Если же он отражает ошибку, то ее нужно устранить. Таким путем удается обнаруживать грубые ошибки или умышленные искажения отдельных элементов таблицы данных.

3.2. Прогнозирование динамических рядов (алгоритм ZET—D)

Алгоритм ZET-D работает с таблицами типа «время-свойство». На рисунке 1 такая таблица обозначена символами (ТВС/О); здесь более подробно представлена в табл. 3, а.  строк в этой таблице отражают значение  свойств  некоторого объекта или процесса в последовательные моменты времени . Таблицу можно переформировать, объединив в одну строку  соседних по времени строк. Первая строка такой новой таблицы отражает данные из  первых строк исходной таблицы :

Во вторую строку новой таблицы поместим  строк, начинающихся с момента времени , в третью — с момента времени  и т. д. до строки, начинающейся с момента . В результате получим таблицу, состоящую из  столбцов и  строк (см. табл. 3, б). Если строка  соответствовала, например, свойствам объекта в -й год, то каждая строка новой таблицы будет соответствовать периоду в  лет.

Таблица 3. Преобразование таблицы методом «змейки»

image1

Все элементы новой таблицы известны, кроме элементов последнего сегмента , в котором должны быть отражены свойства изучаемого объекта или процесса в момент времени , следующий за последним моментом из отраженных в протоколе наблюдения.

Если каждую пустую -ю клеточку последнего сегмента заполнить алгоритмом ZET, то получим прогноз свойств  в момент времени . Описанный способ формирования длинных строк из сдвигаемых коротких и последующего прогнозирования элементов короткой строки в одной из недавних работ был назван методом «змейки».

В [56] описано несколько вариантов этого алгоритма для исходных таблиц разного характера. Есть вариант (алгоритм ZETMC), ориентированный на таблицы с фиксированным порядком следования свойств . Примером такой таблицы может служить сводка ежемесячных показателей деятельности предприятия за  лет. Здесь роль свойств играют показатели в -e месяцы, а -я строка — это данные за -й год. Прогнозирование делается не для всех месяцев года сразу, а последовательно для каждого следующего месяца. Начало годового цикла — вещь условная, цикл можно начинать с любого месяца. Пусть таблица содержит данные за период с 1970 по 1995 годы. Возьмем первый столбец (данные за январи) и поставим его за последним столбцом (за декабрями). Если его сдвинуть на одну строку вверх, то в первой строке окажутся данные за год, начинающийся в феврале 1970-го и заканчивающийся в январе 1971-го года. В последней строке будет цикл, который начинается в феврале 1995-го и заканчивается январем 1996-го года. Данные за январь 1996-го года нам не известны, и эту пустую клеточку таблицы мы заполняем с помощью алгоритма ZET.

Затем мы можем перенести с первой позиции на последнюю столбец с данными за феврали. Годовые циклы будут начинаться с марта текущего года и заканчиваться в феврале следующего года. Заполнив новую пустую клеточку, мы предскажем отсутствующее значение февраля 1996-го года. Эту процедуру поочередного переноса первых столбцов на последнее место и прогнозирования очередного неизвестного значения можно продолжать сколь угодно долго.

Однако ясно, что с удалением прогнозируемого момента времени от момента последнего наблюдения точность прогноза будет падать, причем скорость нарастания ошибок зависит от характера наблюдаемого процесса и заранее предсказана быть не может. Для каждой конкретной таблицы рекомендуется метод ретроспективного анализа: на прошлом материале делаются прогнозы известных данных и фиксируется зависимость ошибок прогноза от длительности периодов упреждения. В результате можно предположительно говорить об ожидаемой ошибке прогноза при заданном периоде упреждения или о максимальном периоде упреждения при заданной допустимой величине ошибки прогноза.

Возможен и другой подход — оценивать ожидаемую ошибку по дисперсии подсказок, получаемых в процессе работы алгоритма ZET, как это описано в § 2 настоящей главы.

 

Categories

1
Оглавление
email@scask.ru