Корреляционная матрица |

Корреляционная матрица представляет собой симметричную квадратную матрицу размером M*M, где М – число исследуемых факторов, главная диагональ которой заполнена единицами (или нулями для удобства дальнейшего анализа), а недиагональные элементы представляют собой меру тесноты связи между парой факторов (коэффициент корреляции, корреляционное отношение, модифицированный индекс Фехнера и т.д.). Другими словами, для заполнения корреляционной матрицы необходимо найти меру тесноты связи для каждой пары факторов, то есть, провести корреляционный анализ таблицы исходных данных по принципу «каждый с каждым» любым известным способом (например, по методу Чебышева).

На практике часто встречаются случаи грубых промахов парных выборок, выявить которые очень сложно, а также заметные отклонения факторов от нормального закона распределения. Применение в этих условиях классического корреляционного анализа с мерой тесноты связи в виде коэффициента корреляции требует известной осторожности, так как на фоне большого рассеивания исходных данных нелегко решить, принадлежит ли конкретная пара чисел исследуемой двумерной совокупности или представляет собой грубый промах. В сомнительных случаях (обе случайные величины не распределены по нормальному закону распределения; есть подозрение, что парная выборка может содержать грубые промахи) рекомендуется в качестве меры тесноты связи использовать модифицированный индекс Фехнера. Модифицированный индекс Фехнера, конечно, менее точен, чем коэффициент корреляции, но только в отсутствие грубых промахов и искажения закона распределения. Даже при одном грубом промахе коэффициент корреляции значительно меняется, давая неправильный результат, в то же время как модифицированный индекс Фехнера, основанный на одной из самых робастных (устойчивых к изменению исходных условий) оценок математической статистики – на средней арифметической – дает результат значительно ближе к истинному. Безусловно, если одна или обе случайные величены являются дискретными или варьируются на большом числе уровней, то следует в качестве меры тесноты корреляционной связи выбрать подходящую из богатого арсенала мер, частично описанных в разделе 2.1.

Непосредственный анализ корреляционной матрицы представляет значительную трудность, так как корреляционные связи между факторами образуют деревья, цепи, циклы и другие фигуры графов. Для выделения главных зависимостей сдует прибегнуть к одному из методов анализа таких матриц, простейшим из которых является метод корреляционных плеяд.

Метод заключается в том, что в корреляционной матрице находится недиагональный элемент с максимальной по модулю величиной |r_ij|=max. Из матрицы вычеркиваются столбцы с номерами i и j, а из строк с номерами i и j выбирается следующий максимальный по модулю элемент, например |r_il|. Столбец с номером l вычеркивается, а из строк с номерами i, j и l выбирается следующий максимальный по модулю элемент, и так далее до исчерпания данных.

Результат такой работы удобно представить на рисунке в виде графа, вершинами которого являются факторы, ребрами – максимальные связи, причем длины ребер обратно пропорционально величине соответствующей коэффициентов корреляции. Выбрав некоторое пороговое значение коэффициента корреляции, например |r_пор|=0.5, можно отделить по этому признаку плеяды друг от друга.

Внутри каждой плеяды связь между факторами признается тесной, а между плеядами – слабой. Это означает, что если от каждой плеяды выбрать по одному представителю, то новое общее количество факторов, сокращенное до количества плеяд, будет нести об исследуемом объекте практически ту же информацию, что и раньше. При этом факторы новой таблицы данных будут слабо коррелированными между собой, что является одним из главных условий перехода к математическому моделированию.

Шпоры и лекции в ПГУ — студентам ПМР.