Парная корреляционная зависимость и меры тесноты связи


В природе существуют два вида зависимостей между явлениями и процессами – функциональная и стохастическая. Функциональная зависимость характеризуется взаимно однозначным соответствием между выходной величиной (целевой функцией) и некоторыми влияющими на нее аргументами (параметрами, факторами). Совсем по-другому обстоит дело в закономерностях, проявляющихся только в массовом процессе, только при большом числе единиц совокупности. Такие закономерности называются стохастическими (вероятностными). При стохастической закономерности для заданных значений независимых переменных можно указать ряд значений выходной величины, случайно рассеянных в некотором интервале.

Это обуславливается тем, что зависимая переменная, кроме контролируемых факторов, подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение переменных неизбежно сопровождаются некоторыми случайными ошибками. Парная стохастическая зависимость выражается с помощью уравнения регрессии, которое есть уравнение связи контролируемых факторов с геометрическим местом точек центров условных распределений выходной величины.

Если между двумя случайными величинами X и Y существует корреляционная связь, а именно линейная регрессия, то можно величину этой связи (меру ее тесноты) определить с помощью коэффициента корреляции. При этом предполагается, что обе случайные величины, представленные в виде выборок большого объема, распределены по нормальному закону и не содержат грубых промахов (значений, не принадлежащих данной совокупности). Величина (мера тесноты) этой связи называется простым линейным коэффициентом корреляции, коэффициентом парной корреляции, или кратко, коэффициентом корреляции и может быть подсчитана по формуле:

clip_image002, (2.1)

где: clip_image004 и clip_image006— среднее значение переменных; SX и SY – стандартное отклонение; N – число пар наблюдений.

Коэффициент корреляции является симметричной функцией относительно X и Y, поэтому, если рассматривать зависимость X от Y, то это не отразится на величине коэффициента корреляции.

Коэффициент корреляции принимает значения в интервале
–1? rXY ?+1. При положительном коэффициенте корреляции говорят о положительной корреляции, а при отрицательном – об отрицательной корреляции. Чем ближе коэффициент корреляции к +1 или –1, тем теснее, интенсивнее связь. Значение +1 коэффициент корреляции достигает, если между соответствующими отклонениями X и Y существует прямая функциональная связь, а значение –1 – если между ними существует обратная функциональная связь. Таким образом, функциональная связь (то есть, взаимно-однозначное соответствие между X и Y) есть частный случай корреляционной связи (рис.2.1).

Коэффициент корреляции не дает возможности ответить па вопрос, имеется ли нелинейная корреляция между переменными. Для этого существует другая мера тесноты корреляционной связи – корреляционное отношение. Квадрат корреляционного отношения представляет собой частное от деления двух дисперсий.

clip_image008 (2.2)

где clip_image010– дисперсия выборки по величине Y; clip_image012— дисперсия групповых средних выборки, расслоенных по некоторому факторному признаку. Как правило, расслоение двумерной выборки делается в виде корреляционной таблицы (например, см. табл. 2.1), где Yl представляют собой средние арифметические по разрядам величины Y независимо от распределения X, а clip_image014— средние арифметические по разрядам величины Y с учетом их связи с гистограммой случайной величины X. Корреляционное отношение измеряет относительную степень варьирования групповых средних clip_image016 и может меняться в пределах 0clip_image018clip_image0202clip_image018[1]1. Когда групповые средние одинаковы (не варьируют), то clip_image020[1]2=0 и связь между случайными величинами отсутствует. В случае функциональной линейной связи clip_image020[2]2=r2=1. Во всех других случаях clip_image020[3]2>r2. Чем это различие больше, тем связь более криволинейна. В предельном случае, когда связь строго криволинейна, возможно сочетание r2=0 и clip_image020[4]2=1 (например, вершина параболы). Вычисление clip_image020[5]2 по формуле (2.2) имеет смысл лишь при выборке большого объема. С уменьшением объема выборки вероятность правильного вычисления корреляционного отношения падает.

Существуют некоторые важные факторы, которые могут при известных обстоятельствах оказывать влияние на величину коэффициента корреляции, снижая точность его оценки. К ним относятся вид закона распределения (чем ближе к нормальному, тем достовернее), объем парной выборки (чем больше, тем лучше), наличие грубых промахов (даже один грубый промах исказит общую картину). С осторожностью нужно подходить и к обобщению результатов обследования. Сравнение двух коэффициентов корреляции, полученных по неоднородным выборкам, может привести к неправильным результатам. На однородность выборок также влияет множество факторов, например, исходные условия сбора материала (температура, влажность, давление, географическое положение, экономические показатели и т.п. – в зависимости от поставленной задачи). Величина коэффициента корреляции зависит также от фактора времени.