Конечной целью статистического корреляционного анализа является установление корреляционного (когда обе случайные величины имеют центрированный и нормированный вид) или регрессионного (когда обе случайные величины даны в произвольном исчислении) уравнения. Сделать это можно несколькими способами, из которых наиболее удобны метод Чебышева и метод наименьших квадратов. Пояснения будем вести на примере выборки большого объема сначала для метода Чебышева.
Пусть при исследовании некоторого объекта (изделия, продукции, технологического процесса) измеряется несколько параметров, которые формируются в таблицу многомерных данных, подобную табл.1.1. Для удобства нахождения уравнения регрессии следует сформировать таблицу двумерного распределения по выбранной паре случайных величин X и Y, в которой левый столбец представляет собой запись центров разрядов гистограммы случайной величины X, предпоследний столбец – запись частот разрядов nj, верхняя строка – запись центров разрядов гистограммы случайной величины Y, а последняя строка – запись частот разрядов nl этой гистограммы (пример представлен в табл.2.1). Затем для каждой пары чисел Xi – Yi (не путать с номерами разрядов j и l) исходной таблицы данных найдем соответствующую клетку таблицы двумерного распределения и сделаем в ней отметку о попадании (точку или черточку). Исчерпав всю таблицу исходных данных, подсчитаем количество попаданий njl пар чисел в каждую jl-ю клетку, то есть клетку, находящуюся на пересечении j-ой строки и l—го столбца. Суммы попаданий по строкам должны совпасть с гистограммой Х, суммы попаданий по столбцам дают гистограмму распределения величины Y. В качестве контроля правильности таблицы двумерного распределения можно предложить равенство сумм чисел попаданий в разряды обеих гистограмм. Последний столбец этой таблицы заполняется средними арифметическими значениями по каждой j-й строке. Тогда для величины Y получается две гистограммы – исходная с центрами разрядов и числами попаданий nl и условная – с центрами квазиразрядов и числами попаданий nj.
Таблица двумерного распределения дает дополнительную возможность избавиться от грубых промахов, которые невозможно выявить в одномерных выборках. Для двумерной таблицы грубым промахом считается попадание в клетку, отстоящую от основного массива данных одновременно не менее чем на одну пустую клетку по горизонтали и по вертикали (при достаточно большом общем объеме выборки, например, не менее 100).
Метод Чебышева позволяет аппроксимировать искомую зависимость в виде полинома некоторой степени.
Исследование связи между двумя величинами начинается с вычисления смешанных моментов различных порядков. Смешанным центральным моментом порядка (hX,hY) распределения по разрядам совокупно наблюденных значений двух случайных величин X и Y называется выражение вида:
Полагая hY = 0 получим , то есть центральные моменты порядка hX случайной величины X (определены в разделе 1); полагая hX=0, получим , то есть центральные моменты случайной величины Y.
Смешанные основные моменты порядка (hX,hY) находится при помощи центральных моментов
В частности, смешанный основной момент порядка (1/1) есть коэффициент корреляции.
При обработке на ЭВМ исходной таблицы данных без составления таблицы двумерного распределения выражение для подсчета коэффициента корреляции удобнее представить в другом виде
Обычно считают при ?r??0,3 связь двух случайных величин слабой, при ?r? = 0,4–0,6 – средней, а при ?r??0,7 – сильной (или тесной). Граница значимости коэффициента зависит от объема выборки и при N?50 может быть представлена в виде
Значимость коэффициента корреляции при объемах выборки N>50 можно установить при соблюдении неравенства
Иногда создается парадоксальная, на первый взгляд, ситуация, когда корреляционное отношение велико (то есть факт достаточно тесной связи установлен), а коэффициент корреляции незначим. Это говорит о сугубо нелинейном характере связи, имеющей вид, например, параболы, производная которой в точке экстремума (численно равная коэффициенту корреляции) равна нулю.
В случае, если коэффициент корреляции достаточно велик, правильность вычислений можно установить при подтверждении неравенства h2 ? r2.