6.5. Рекомендации по определению «исходных позиций» алгоритмов расщепления смесей распределений
Из предыдущего материала главы следует, что эффектив ность используемых для расщепления смесей алгоритмов (скорость их сходимости, опасность стабилизации итерационной процедуры алгоритма на стационарной точке функции правдоподобия, не дающей ее глобального экстремума, статистические свойства получаемых оценок) существенно зависит отвыбора исходной позиции алгоритма, т. е. от конкретных начальных приближений для числа классов, априорных или апостериорных вероятностей и т. п., которые используют на нулевой итерации алгоритма.
Поэтому обычно настоятельно рекомендуется предпослать каждому из таких алгоритмов этап так называемого разведочного статистического анализа классифицируемых данных (техника разведочного статистического анализа описана в разделе IV). Он предназначен для предварительного «прощупывания» геометрической и вероятностной природы совокупности анализируемых данных и, в частности, позволяет формировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей принадлежности наблюдения каждому из классов и т. п.
Одним из основных приемов такого типа анализа является проецирование анализируемых многомерных наблюдений на плоскость таким образом, чтобы максимально сохранить при этом интересующие исследователя специфические особенности рассматриваемой совокупности данных, например наличие и общее число четко выраженных «сгустков» (классов) или эффект концентрации данных этой совокупности вдоль некоторой гиперповерхности размерности меньшей, чем размерность исходного признакового пространства (такие процедуры носят название методов целенаправленного проецирования; см раздел IV). Производимый затем визуальный анализ спроецированных на плоскость исходных данных позволяет генерировать рабочие гипотезы по поводу требуемых начальных приближений алгоритмов.