Загрузка...

ИССЛЕДОВАНИЕ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ


Лабораторная работа № 3

Цель работы привить навыки по обработке полученных экспериментальным путем статистических данных для определения мер тесноты связи случайных величин, а также определения уравнений регрессии по методу Чебышева.

1 Общие положения

1.1 Общие сведения о корреляции

В природе все явления взаимосвязаны. Различают связи функциональную и корреляционную. Функциональной называют такую связь между величинам которой каждому значению одной переменной соответствует условное распределение другой.

Статистическое исследование корреляции сводят к установлению факт между случайными величинами, определению ее формы, направленности и ты. Установление факта связи производят на основе физического анализа результатов измерений   соответствующих величин.

Корреляцию называют простой, если она основана на связи двух случайных величин, и множественной, если имеется взаимосвязь нескольких случайных величин. По форме различают корреляцию линейную, когда зависимость между случайными величинами отражается в виде уравнения прямой, и криволинейную —  она отражается в виде уравнения какой-либо кривой. По направлению различают корреляцию прямую, когда с увеличением одной случайной величины  увеличивается и другая, и обратную, когда с увеличением одной случайной величины другая в среднем уменьшается.

Тесноту корреляционной связи выражают в виде отвлеченных статистических характеристик (показателей) — коэффициента корреляции r и корреляционного отношения .

Коэффициент корреляции является численной характеристикой линейной  корреляции и может быть найден по формуле

                           (3.1)

где X, Y — текущие, а  — средние арифметические значения  случайных вели­чин X и Y; — соответствующие среднеквадратические отклонения; N – объем парной выборки.

При обработке на ЭВМ выражение (3.1) удобнее представить в другом виде

   .     (3.2)

Коэффициент корреляции может принимать значение от -1 до +1. При полной прямой корреляции (корреляция переходит в функциональную зависимость) r = +1, при полной обратной (тоже функциональная зависимость) r = -1. При r
= 0 прямоли­нейная корреляционная связь отсутствует (криволинейная связь при этом может быть). Обычно считают при r
 0.3 связь двух случайных величин слабой, при r = 0,4 — 0,6 — средней, а при r  0,7 — сильной (или тесной). Граница значимости коэффици­ента корреляции зависит от объема выборки и при N  50 может быть представлена в виде

    ,                                     (3.3)

а при N  50 – по формуле (3.7).

Корреляционное отношение является численной характеристикой криволинейной связи. Квадрат корреляционного отношения представляет собой частное от деления двух дисперсий

       ,                                             (3.4)

где  — дисперсия выборки по величине Y; — дисперсия групповых средних выборки, расслоенной по некоторому факторному признаку. Как правило, расслоение двумерной выборки делается в виде корреляционной таблицы (например, см. таблицу 3.1), где представляют собой средние по разрядам величины Y независимо от распределения X, а  — средние по разрядам величины Y с учетом их связи с гистограммой случайной величины X. Корреляционное отношение измеряет относительную степень варьирования групповых средних  и  может меняться в пределах . Когда групповые средние одинаковы (не варьируют), то  = 0 и связь  между случайными величинами отсутствует.

В случае функциональной линейной связи = 1. В других случаях >. Чем это различие больше, тем связь более криволинейна. В предельном случае  когда связь строго криволинейна, возможно сочетание  = 0 и = 1. Вычисление по формуле (3.4) возможно лишь при выборке большого объема. С уменьшением объема выборки вероятность правильного вычисления корреляционного отношения падает.

Конечной целью статистического корреляционного анализа является установление корреляционного (когда обе случайные величины имеют центрированный нормированный вид) или регрессионного (когда обе случайные величины даны в произвольном исчислении) уравнения. Сделать это можно несколькими способами, из которых наиболее удобен метод Чебышева. Пояснения будем вести на примере выборки большого объема.

1.2 Предварительная группировка данных

Пусть при изготовлении некоторой продукции одного типономинала одновременно измеряются два параметра, значения которых представлены в таблице 1.1. Для удобства дальнейшей обработки данных ее необходимо упорядочить и представить в виде таблицы двумерного распределения (таблица 3.1). Для этого по гистограмме лабораторной  работы 1 строим  таблицу с числом внутренних клеток 99,  в левом столбце которой записываются средние значения разрядов гистограммы  в предпоследнем  —  число попаданий в них n. Для заполнения остальных строк и  столбцов надо выбрать из таблицы 1.1 вторую колонку, например, Y, корреляцию с которой будем  искать. Для величин Y, аналогично величинам Х, найдем Ymin и Y
определим шаг гистограммы С и середины разрядов  — которые и запишем в шапку таблицы  3.1. Затем для каждой пары чисел Х, Y
таблицы 1.1 найдем соответствую клетку таблицы 3.1   и сделаем  в ней   отметку о  попадании (точку или черточку). Ис­черпав всю таблицу 1.1, подсчитаем количество попаданий       пар чисел   в каждую j— ю клетку, то есть клетку, находящуюся на пересечении j — й строки и — го столбца.

Суммы попаданий по строкам должны совпасть с гистограммой

 лаборатор­ной работы 1, суммы попаданий по столбцам дают гистограмму  распределения ве­личины Y. В качестве контроля правильности заполнения таблицы 3.1 можно предло­жить равенство сумм чисел попаданий в разряды обеих гистограмм. Последний столбец таблицы 3.1 заполняется средними арифметическими значениями  по каж­дой j-й строке. Тогда для величины Y получается две гистограммы — исходная с центрами разрядов  и числами попаданий  и условная — с центрами  квазираз­рядов   и числами попаданий nj.

Таблица двумерного распределения дает дополнительную возможность избавиться от грубых промахов, которые невозможно выявить в одномерных выборках. Для двумерной таблицы грубым промахом считается попадание в клетку, отстоя­щую от основного массива данных одновременно не менее чем на одну пустую клетку по горизонтали и по вертикали (при достаточно большом общем объеме выборки, например, не менее 100).

Воспользовавшись формулами (1.5) и (1.6) для обеих гистограмм величины найдем

= 64.13;  54.32;  35.14.

Тогда по формуле (3.4) квадрат корреляционного отношения = 0,6469

и =0,8043. Другими словами, есть все основания отнести исследуемые

параметры среднекоррелированным.

Таблица 3.1 — Таблица двумерного распределения

1.3. Метод Чебышева

Метод Чебышева позволяет аппроксимировать искомую зависимость в виде полинома некоторой степени.

Исследование связи между случайными величинами  начинается с вычисления смешанных моментов различных    порядков. Смешанным центральным моментом порядка (hx ,h)   распределения   по   разрядам совокупно   наблюденных значений двух случайных величин X и Y   называется выражение вида

    .              (3.5)

Полагая h = 0 получим, то есть центральные моменты порядка h
случайной величины X (определены в лабораторной  работе 1); полагая h = 0, получим ,то есть центральные моменты случайной величины Y.

Смешанные основные моменты порядка   ()   находятся при помощи центральных моментов

  .                                            (3.6)

В частности, смешанный основной момент порядка (1/1)  есть коэффициент корреляции.

В результате вычислений находим  =270.86;  =6497,40;

= /= 270.86 /  7.37 = 0.7396  0.74;

= /= 6497.40 / 49.692  = 0.3570.

Значимость коэффициента корреляции при объемах выборки N>50 можно уста­новить при соблюдении неравенства

    ,                                             (3.7)

где                                              .

В нашем случае  = 0.0341 и неравенство (3.7) выполняется. Иногда создаётся парадоксальная, на первый взгляд, ситуация, когда корреляционное отношение велико (то есть факт достаточно тесной связи установлен), а коэффициент корреляции незначим. Это говорит о сугубо нелинейном характере связи,  имеющий вид, например, параболы, производная которой в точке  экстремума (численно равная коэффициенту корреляции) равна нулю.

В случае, если коэффициент корреляции достаточно велик, правильность вычислений можно установить при подтверждении неравенства   в нашем случае  0.6469 > 0.5470.

П.Л. Чебышев предложил достаточно простой и удобный способ определения уравнения регрессии по найденным моментам различного порядка, корреляционному отношению и коэффициенту корреляции. Способ предполагает предварительно  найти корреляционное уравнение приближенного условного основного момента   порядка в виде

=,                      (3.8)

где   — центрированная и нормированная переменная;

 ;           .

Следует иметь в виду, что при доказанном нормальном распределении случайной величины X смешанные основные моменты  = 0 и = 3. Если распределение отличается от нормального, то следует использовать значения, вычисленные в лабораторной работе 1.

 Для нашего примера a = 3-0-1 = 2 ; b = 0,357-0 = 0,357.

Переход к уравнению регрессии выполняется по формуле

                                ,                                         (3.9)

где — вероятное значение величины Y.

Выражение (3.8) является корреляционным уравнением в силу того, что аргумент и функция выражены в относительных единицах (в центрированном и нормированном виде). Выражение (3.9) является уравнением регрессии той же пары в абсолютных   единицах   измерения   с   учетом   среднеквадратических   отклонений.  Именно по этой причине регрессия есть линия — геометрическое место точек проекций центров условных распределений (см. рис. 3.1)

Выражение (3.8) дает возможность подобрать полином любого (в разумных пределах) порядка, так как построен он следующим образом: для полинома первой степени достаточно  принимать в расчет только первый член  выражения (3.8), остальными можно пренебречь; для полинома второго порядка — первые два члена и т.д. (Здесь мы ограничились уравнениями только второго порядка). Показателем того, на  каком  порядке  корреляционного уравнения следует остановиться, служит критерий      с его основной ошибкой .Если величина критерия      оказывается достаточно малой по сравнению с его ошибкой , то мы  можем остановиться на корреляционном уравнении порядка. Если  при  очередном шаге величина критерия окажется   отрицательной, то надо вернуться к уравнению предшествующего порядка.

Для определения порядка  корреляционного уравнения находим критерий линейности

       

с основной ошибкой

                    .

Так как  то уравнение не может   быть   линейным. Найдем критерий  квадратичности

                    

с основной ошибкой

                      .

Так как критерий и его основная ошибка отличаются друг от друга не более чем в 3 раза, то с достаточной точностью можно считать искомое корреляционное уравне­ние квадратичным. Подставляя найденные значения символов в (3.8), получим

.

Подставляя найденное выражение в (3.9) и раскрывая значение , получим искомое уравнение регрессии

Ошибка уравнения второй степени (границы существования вероятного значения случайной величины Y, коридор ошибок уравнения регрессии) равна

Для наглядности найденное уравнение регрессии и его коридор  ошибок изоб­ражены на рисунке 3.1.

Рисунок 3.1 — Графиче­ское изображение найденных уравне­ний регрессии, ко­ридора ошибок и групповых средних

2  Порядок проведения работы

2.1. По таблице 1.1 массива экспериментальных данных, полученной у преподава­теля, построить таблицу двумерного распределения.

2.2. Вычислить среднюю арифметическую  , эмпирическую дисперсию  и дисперсию групповых средних .

2.3. Вычислить корреляционное отношение .

2.4. Вычислить основные моменты двумерного распределения  и .

2.5. Определить порядок корреляционного уравнения и найти уравнение ре­грессии по методу Чебышева.

2.6. Построить график  уравнения   и коридор его существования.

2.7. Оценить полученные результаты.

3  Содержание отчёта

Отчет о лабораторной работе должен содержать исходную таблицу данных, таблицу двумерного распределения, результаты вычислений по п.2.2 — 2.5 и графики по п.2.6.

При подготовке к защите лабораторной работы необходимо ознакомиться с  контрольными вопросами и продумать ответы на них.

4  Контрольные вопросы

4.1. Назовите виды и степени связи между случайными величинами.

4.2. Что такое коэффициент корреляции и корреляционное отношение? В чём их сходство и различие?

 4.3. Что выражают смешанные моменты? Как определяется их порядок? Kaкие смешанные моменты Вы знаете?

4.4. В чем идея метода Чебышева по нахождению уравнения регрессии?

4.5. Что такое корреляционное уравнение и чем оно отличается от регрессионного? От обычного алгебраического уравнения?

 4.6. Как определяется степень уравнения регрессии и как проверяется ее достаточность?

 4.7. Что такое доверительные границы (коридор ошибок) уравнения регрессии? Как проявляется правильность их нахождения?

5  Рекомендуемая литература

 5.1. Митропольский А.К. Техника статистических вычислений. Изд. 2-е. – М.: Наука, 1971. — 576 с.  (С.86-107, 133-141, 359-366, 395-404).

 5.2. Математическая статистика /Под ред. проф. A.M. Длина. -М.: Высшая школа. 1975. — 270 с. (С. 269-299).

 5.3. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике науке: Методы обработки данных /Пер. с англ.; Под ред. Э.К.Лецкого. — М.: Мир 1980. — 610 с.  (С.447-465, 472-482).

5.4. Долгов Ю.А. Статистическое моделирование : Учебник для вузов.- Тирасполь: РИО ПГУ, 2002.- 280 с. (С. 32-44).

Загрузка...