Глава 18. КЛАССИФИКАЦИЯ ПОТРЕБИТЕЛЕЙ ЭЛЕКТРОЭНЕРГИИ ПО ГРАФИКАМ НАГРУЗКИ С ПОМОЩЬЮ МЕТОДА ДИНАМИЧЕСКИХ СГУЩЕНИЙ
18.1. ВВЕДЕНИЕ
Если требуется классифицировать некоторый набор данных, исследователь может обратиться к одному из методов автоматической классификации для того, чтобы выбрать разбиение и, может быть, число классов. Методы иерархической классификации предоставляют возможность выбрать требуемое разбиение из множества всех разбиений, соответствующих различным уровням иерархии. Выбор делается в зависимости от значений некоторого критерия, уровня значимости или свойств полученных классов. Недостаток методов иерархической классификации заключается в том, что они предполагают у классифицируемых данных существование иерархической структуры. Можно задать вопрос, являются ли эти методы наиболее подходящими для классификации больших наборов данных (современные мощные алгоритмы позволяют обрабатывать массивы, содержащие несколько тысяч объектов); не могут ли классы, полученные в результате большого числа иерархических перегруппировок, оказаться далекими от оптимальных из-за того, что предполагаемая структура неестественна для классифицируемой выборки?
Если же обратиться к методам неиерархической классификации, то, как известно, они не всегда удобны, поскольку требуют априорного задания числа классов либо более или менее произвольных порогов для этого числа. Метод динамических сгущений не является в этом отношении исключением, но он обладает тем преимуществом, что в результате большого числа прогонов на одном и том же массиве данных дает устойчивые формы. Заметим, что, как правило, по сравнению с числом объектов число прогонов невелико. Полученные устойчивые формы можно подвергнуть иерархической классификации, что позволит определить «удовлетворительное» число классов, в том смысле, как это будет определено ниже.
Представленный в этой главе алгоритм, построенный на основе метода динамических сгущений, как нам кажется, вполне подходит для цели, которую преследуют многие исследователи, а именно получить классификацию некоторого массива данных, не зная заранее числа классов. После краткого описания основных этапов этой процедуры приводятся два примера ее применения к задаче классификации кривых мощности (кривых нагрузок), потребляемой пользователями электроэнергией. Речь идет о более точном определении кривой,
отражающей мощность электроэнергии, потребляемой клиентами. Для различных целей может потребоваться довольно высокая точность определения этой кривой. Типологический анализ позволяет разбить клиентов на группы, внутри которых разброс кривых нагрузок минимален.