Загрузка...

Построение уравнений связи парных выборок малого объема.


Лабораторная работа  №7.

Цель работы: — выработать навыки построения корреляционных уравнений вплоть до третьего порядка для выборок малого объема.

1  ОБЩИЕ  ПОЛОЖЕНИЯ

1.1 Алгоритм метода двумерного точечного распределения

Метод построения корреляционных и регрессионных уравнений по парным выборкам малого объема основанном на классическом методе Чебышева [5.1;5.2], дополненном методом точечных распределений [5.3]. Рассмотрение алгоритма расчета предлагается начать с числового примера (таблица 7.1).

Таблица 7.1 – Упорядоченная парная выборка объемом n=8

Номер

измерения, i

1

2

3

4

5

6

7

8

Средн.

арифм.

СКО

Хi

5,32

5,97

6,06

6,20

6,70

7,33

7,61

8,01

6,65

0,9272

Yi

38,5

41,0

41,2

42,3

47,1

50,3

51,0

51,2

45,325

5,1558

Каждое измерение выборки считается центром виртуального распределения с нормальным законом.

Для создания корреляционной таблицы необходимо первоначально определить границы существования выборок каждого параметра  и , а также интервалов перекрытия каждого ядра  и  с одновременным выбором вида ядра, выбором коэффициента  и количества интервалов дискретности каждого от­резка (a, b), как это предусмотрено алгоритмом для единичной выборки, описанном в [5.3]. При этом опора ведётся на резуль­таты предварительных расчетов по общеизвестным формулам Гаусса для среднего арифметического и Бесселя для среднеквадратических откло­нений (СКО), числовые значения которых представлены в таблице 7.1.

Результаты расчетов по алгоритму следующие:

;

      ;      

;          

Каждый отрезок (a; b) следует разбить на 30 интервалов дискретности и найти центры для каждого интервала. Затем определяется условие накрывания каждой i-ой дельтаобразной функции интервалом задания  каждого центра j-го интервала дискретности.

Частоты соседних интервалов дискретности следует объединить по три, получаются 10 групп интервалов дискретности. Далее формируется таблица, в столбцах которой располагается центры 10 групп интервалов, а в строках – экспериментальные значения соответствующей выборки. В ячейку, находящуюся на пересечении центра группы и значения рассматриваемой выборки, заносится число, соответствующее условию накрывания интервалов задания для данной выборки. Таким образом формируются таблицы для обеих выборок X и Y (таблицы 7.2 и 7.3).

Таблица 7.2 – Суммарные условные (виртуальные) частоты для выборки

случайной величины Х

j

Xj

Исходная выборка Xi

5,32

5,97

6,06

6,20

6,70

7,33

7,61

8,01

1

4,65

1,496

0,202

0,139

0,074

0,005

1,889

8,7839

40,8449

2

5,09

2,708

0,904

0,701

0,450

0,056

0,001

4,820

27,5338

124,8770

3

5,54

2,727

2,203

1,932

1,499

0,372

0,021

0,004

8,756

48,5193

268,7970

4

5,98

1,500

2,930

2,904

2,727

1,335

0,183

0,051

0,005

11,653

69,5773

416,0723

5

6,43

0,450

2,129

2,385

2,708

2,617

0,845

0,346

0,064

11,544

74,2279

477,2855

6

6,87

0,074

0,845

1,070

1,469

2,801

2,129

1,278

0,406

10,072

69,1946

475,3672

7

7,32

0,006

0,183

0,262

0,435

1,637

2,930

2,572

1,410

9,435

69,0642

505,5499

8

7,76

0,021

0,035

0,070

0,522

2,203

2,828

2,670

8,349

64,7882

502,7567

9

8,21

0,001

0,003

0,006

0,091

0,904

1,699

2,761

5,465

44,8677

368,3634

10

8,65

0,009

0,202

0,557

1,560

2,328

20,1372

174,1868

8,934

9,418

9,431

9,438

9,445

9,418

9,335

8,876

74,295

493,6941

3354,1007

            Виртуальное среднее арифметическое 

            Виртуальная дисперсия

Таблица 7.3 – Суммарные условные (виртуальные) частоты для выборки

случайной величины Y

l

Yl

Исходная выборка Yi

38,5

41,0

41,2

42,3

47,1

50,3

51,0

51,2

1

34,19

1,171

0,296

0,258

0,113

0,001

1,839

62,8754

2149,7103

2

36,66

2,481

1,158

1,061

0,610

0,013

5,232

195,1412

7153,8757

3

39,14

2,873

2,470

2,376

1,789

0,128

0,006

0,003

0,002

9,647

377,5836

14778,6213

4

41,61

1,817

2,877

2,906

2,863

0,664

0,070

0,038

0,031

11,266

468,7783

19505,8634

5

44,09

0,627

1,931

1,942

2,503

1,873

0,436

0,276

0,241

9,729

428,9516

18912,4765

6

46,56

0,118

0,636

,708

1,195

2,889

1,470

1,108

1,013

9,137

425,4187

19807,4956

7

49,04

0,012

0,120

0,141

0,311

2,435

2,709

2,423

2,327

10,478

513,8411

25198,7685

8

51,51

0,001

0,012

0,015

0,044

1,121

2,726

2,893

2,917

9,729

501,1408

25813,7621

9

53,99

0,001

0,001

0,003

0,281

1,498

1,887

1,998

5,669

306,0693

16524,6821

10

56,46

0,038

0,449

0,627

0,747

1,906

107,6128

6075,8164

9,100

9,401

9,408

9,431

9,443

9,364

9,300

9,276

74,723

3387,4128

155921,0719

Виртуальное среднее арифметическое 

            Виртуальная дисперсия

После того, как были сформированы таблицы для каждой выборки, следует сформировать таблицу двумерного распределения (основа – метод П.Л. Чебышева), клетки которой заполняются по формуле:

                                                           (7.1)

где nji, nli – ячейки таблицы 7.2 и таблицы 7.3 соответственно;

      n – объем первоначальной парной выборки (в нашем случае 8).

            Тогда таблица двумерного распределения будет иметь вид, представленный в таблице 7.4.

Средние арифметические выходной величины  с учетом разделения по интервалам дискретности выходной величины Xj (строчные средние) подсчитывается по формуле:

а средние средних арифметических

, где .

Таблица 7.4 – Таблица двумерного виртуального распределения

Xj

Yl

nj

34,19

36,66

39,14

41,61

44,09

46,56

49,04

51,51

53,99

56,46

4,65

1,8240

4,0710

5,1810

3,8670

1,7530

0,5010

0,0957

0,0140

0,0018

0,0002

17,3087

39,3695

5,09

3,6710

8,7850

12,4900

10,8800

5,9470

2,0930

0,5210

0,1105

0,0209

0,0029

44,5213

40,0108

5,54

4,5140

12,2900

20,6000

21,4500

13,9500

5,9920

2,0100

0,6123

0,1536

0,0270

81,5989

40,9034

5,98

3,6840

11,8800

23,5000

28,3000

21,3700

11,5400

5,5100

2,3590

0,7705

0,1719

109,0854

41,9979

6,43

2,0820

7,8000

17,4000

23,300

20,9700

15,5800

11,0900

6,6060

2,7950

0,7603

108,5133

43,6907

6,87

0,7811

3,2310

7,8430

11,9400

13,9700

16,1100

17,3400

13,9200

7,2070

2,2260

94,5681

46,4970

7,32

0,1798

0,7937

2,1060

3,9730

7,3270

14,1400

21,6300

21,4000

12,5200

4,1600

88,2295

49,1703

7,76

0,0240

0,1134

0,3555

1,0530

3,6440

10,7100

20,3300

22,5600

14,1200

4,9030

77,8129

50,3803

8,20

0,0018

0,0099

0,0481

0,3019

1,7200

6,2800

13,2100

15,5400

10,1000

3,6130

50,8247

50,7760

8,65

0,0001

0,0007

0,0081

0,0904

0,6345

2,5200

5,5480

6,7220

4,4730

1,6300

21,6268

50,9213

nl

16,7618

48,9747

89,5317

105,2853

91,2855

85,4660

97,2847

89,8438

52,1618

17,4943

694,0896

            Дисперсия случайной величины  может быть подсчитана по формуле

            Тогда квадрат корреляционного отношения для приведенного примера равен

.

1.2 Вычисление корреляционных и регрессионных уравнений

классическим методом

П.Л. Чебышев предложил достаточно простой и удобный способ определения уравнений регрессии по найденным моментам различного порядка, корреляционному отношению и коэффициенту корреляции [5.1]. Способ предполагает предварительно найти корреляционное уравнение приближенного условного основного момента   в виде полинома степени hX

                                                   (7.2)

            В этом уравнении

                                          

                              

                                     

Исследование связи между двумя случайными величинами начинается с вычисления смешанных моментов различных порядков. Смешанным центральным моментом порядка (hX, hY) распределения по разрядам совокупно наблюденных значений двух случайных величин X и Y называется выражение вида

.                               (7.3)

            Полагая hY­ =0 получим , то есть центральные моменты порядка hX­ случайной величины X­­ ; полагая hX­=0, получим , то есть центральные моменты порядка hY случайной величины Y.

            Смешанные основные моменты порядка (hX, hY) находятся при помощи смешанных центральных моментов

.                                                            (7.4)

            В частности, смешанный основной момент порядка (1,1) r­1/1­
есть коэффициент корреляции.

            Иногда создается парадоксальная, на первый взгляд, ситуация, когда корреляционное отношение велико (то есть факт достаточно тесной связи установлен), а коэффициент корреляции незначим. Это говорит о сугубо нелинейном характере связи, имеющей вид, например, параболы, производная которой в точке экстремума (численно равная коэффициенту корреляции) равна нулю.

В случае, если коэффициент корреляции достаточно велик, правильность вычислений можно установить при подтверждении неравенства .

Переход к уравнению регрессии выполняется по формуле

,                                                           (7.5)

где  — вероятное значение величин Y.

            Выражение (7.2) является корреляционным уравнением в силу того, что аргументы функции выражены в относительных единицах ξ (в центрированном и нормированном виде). Выражение (7.5) является уравнением регрессии
той же пары, но в абсолютных единицах измерения с учетом среднеквадратических отклонений функции. Именно по этой причине регрессия есть линия – геометрическое место точек проекций центров условных распределений (см. рисунок 7.1).

            Выражение (7.2) дает возможность подобрать полином любого (в разумных пределах) порядка, так как построен он следующим образом: для полинома первой степени достаточно принимать в расчет только первый член выражения (7.2), остальными можно пренебречь; для полинома второго порядка два члена и т.д. Показателем того, на каком порядке корреляционного уравнения следует остановиться, служит критерий  с его основной ошибкой . Если величина критерия  оказывается достаточно малой (не более двух основных ошибок ), то можно остановиться на корреляционном уравнении hX­-го порядка. Если при определенном шаге величина критерия   окажется отрицательной, то надо вернуться к уравнению предшествующего порядка.

            Критерий линейности вычисляется по формуле

                                                                   (7.6)

с основной ошибкой ; критерий квадратичности – по формуле

                                                       (7.7)

с основной ошибкой ; критерий уравнения третьей степени вычисляется по формуле

                                                       (7.8)

с основной ошибкой .

            Поскольку уравнение регрессии есть геометрическое место точек проекций центров условных распределений, то возникает естественный вопрос о границах этих распределений, то есть о границах (коридоре) существования самого уравнения регрессии. Эти границы можно определить как

 ,                                                    (7.9)

где zдов
­– квантиль доверительной вероятности Рдов­
(обычно Рдов­­=0,95, тогда zдов­-1,96).

            Применительно к таблице двумерного виртуального распределения в формулах (7.2) – (7.5) следует все  заменить на ,  заменить на , — на , а — на .

            Тогда по данным таблицы 7.4

                    и         .

Критерий линейности (7.6)

с основной ошибкой

            .

            Так как , то искомое уравнение не может быть признано линейным.

                Проверим возможность аппроксимации данных таблицы 7.4 уравнением второго порядка

                        ;        .

                        ;      .

;        .

;    .

Критерий квадратичности (7.7) равен

с основной ошибкой

                                                   .

            Так как , то уравнение не может быть признано квадратичным.

            Проверим возможность аппроксимации данных таблицы 7.4 уравнением третьего порядка

                        ;                    .

;                  .

;                    .

;

;  

.

            Критерий кубичности (7.8) равен

           

с основной ошибкой .

            Так как  , то есть все основания считать, что искомое уравнение имеет третий порядок.

            Подставляя в формулу (7.2) найденные числовые значения, имеем

.

            Переходя затем к уравнению регрессии (7.5) в именованных величинах, имеем

с коридором существования

                                   .

            Графическая интерпретация найденного уравнения регрессии, коридор его существования и экспериментальные данные представлены на рисунке 7.1.

Рисунок 7.1 – Найденное уравнение регрессии, коридор его существования

и экспериментальные данные

1.3 Вычисление с помощью модифицированного индекса Фехнера

            Использование классического коэффициента корреляции в качестве меры тесноты линейной связи в виртуальном пространстве выборок малого объема

наталкивается на значительные трудности. Дело в том, что в виртуальном пространстве СКО обеих случайных величин несколько больше по своим числовым значениям, чем СКО исходных выборок, поэтому величина коэффициента корреляции становится заведомо меньше, чем в реальном пространстве (до 1,5  раз). Это может привести к значительно искаженным, а то и вовсе неверным результатам. Кроме того, в реальном пространстве порог достоверности коэффициента корреляции, ниже которого он рассматриваться не может, равен

,

т.е. в  диапазоне выборки малого объема n=3÷15 он меняется от rmin­=0,752 до rmin­=0,545. Дополнительным препятствием для применения коэффициента корреляции является его зависимость от вида закона распределения случайных величин (чем ближе к нормальному, тем достовернее) и от наличия грубых промахов, которые не всегда могут быть выявлены в выборке малого объема.

            Мерой тесноты линейной корреляционной связи, свободной от вида закона распределения и даже от наличия  некоторого количества грубых промахов, является модифицированный индекс Фехнера (МИФ) [5.2].

            Для его определения вместо таблицы двумерного распределения необходимо создать таблицу знаков sign{}  и sign{}. Если обозначить количество совпадающих знаков через v, а количество несовпадающих – через w (где v+w=N – объем парной выборки, в том числе и в виртуальном пространстве), то МИФ можно определить по формуле

,                                                 7.10)

в которой знаки «плюс» берутся в обоих случаях при v>w, а знаки «минус» — при v<w. МИФ ведет себя так же, как коэффициент корреляции, то есть может меняться в пределах от -1≤f*≤+1, при этом в диапазоне  и при объемах выборки N>40 практически (с точностью до 5%) совпадает с коэффициентом корреляции. Поэтому МИФ рекомендуется использовать везде, где необходимо установить меру тесноты линейной корреляционной связи  (да и само ее наличие) при неясных статистических предпосылках относительно парной выборки.

            Решим ту же задачу нахождения корреляционного и регрессионного уравнения с помощью МИФ.

            Обращаясь к двумерной таблице 7.4 виртуального распределения можно легко установить, что число совпадающих знаков v=564,601 а число не совпадающих – w=129,489. Для этого достаточно подсчитать суммы njl­ чисел стоящих в ячейках на пересечении совпадающих и не совпадающих знаков величин X и Y
соответственно.

            Тогда величина МИФ согласно формуле (7.10) равна

.

            Так как (f*)2=0,7106>η2=0,4825, то критерий ψ1
не может быть определен по формуле (7.6). Другими словами, в этом случае уравнение не может быть найдено выше первого порядка.

            Согласно формуле (7.2) корреляционное уравнение запишется в виде

,

а регрессионное уравнение по формуле (7.5) – в виде

                                                         (7.11)

с коридором существования

.

            Для наглядности графическая интерпретация уравнения (7.12) совмещена с таким же представлением уравнения (7.10) на рисунке 7.1. Сравнение их друг с другом приводит к выводам, что оба уравнения имеют право на существование и удовлетворяют исходной выборке малого объема, однако коридор существования уравнения (7.12) меньше (примерно 25%) такого же коридора существования уравнения (7.10) и, следовательно, уравнения (7.12) является более точным.

2 ПОРЯДОК ПРОВЕДЕНИЯ РАБОТЫ

            2.1 По таблице исходных данных к лабораторной работе № 4 (таблица 4.1) выписать парную выборку  XY малого объема (из трех факторов X1­, X2­,  X3 ­ в эту выборку можно взять тот фактор, который использовался в лабораторной работе № 6 – это уменьшит объем дальнейшей расчетной работы).

            2.2 Рассчитать границы (a, b) существования выборок каждой случайной величины X и Y и определить интервалы ±ρ
перекрытия их ядер.

            2.3 Для k=30 интервалов дискретности по каждой случайной величине X и Y определить центры интервалов дискретности и построить таблицы суммарных условных (виртуальных) частот, подобных таблицам 7.2 и 7.3 (таблицу для случайной величины X можно перенести из лабораторной работы № 6).

            2.4 По формуле (7.1) создать таблицу двумерного виртуального распределения, подобную таблицу 7.4, и определить строчные суммы и строчные средние арифметические величины .

            2.5 Рассчитать среднее средних и дисперсию  строчных значений  и определить квадрат корреляционного отношения η2.

            2.6 Определить число совпадающих v и не совпадающих w знаков таблицы двумерного распределения и рассчитать модифицированный индекс Фехнера (МИФ) f*.

            2.7 Если η2 ≥(f*)2 , то дальнейший поиск уравнения регрессии вести по алгоритму раздела 2.1, заменив в расчетах коэффициент корреляции r1/1 на МИФ f*.

            Если η2<(f*)2, то следует ограничиться регрессионным уравнением первого порядка и расчет его вести по алгоритму раздела 1.3.

2.8 Полученное регрессионное уравнение изобразить графически с указанием коридора его существования и в тех же координатах найти все точки исходного парного распределения малого объема.

2.9 Сделать выводы из проделанной работы.

3 СОДЕРЖАНИЕ ОТЧЕТА

            Отчет о лабораторной работе должен содержать таблицу исходной парной выборки X-Y малого объема, таблицы суммарных виртуальных частот для каждой случайной величины, таблицу двумерного распределения, подробную запись промежуточных и окончательных расчетов при поиске корреляционной и регрессионной моделей, а также графическое представление последней.

            При подготовке к защите лабораторной работы необходимо ознакомиться с контрольными вопросами и продумать ответы на них.

4 КОНТРОЛЬНЫЕ ВОПРОСЫ

4.1 Какое уравнение можно назвать корреляционным?

4.2 Какое уравнение можно назвать регрессионным?

4.3 В чем отличия корреляционных и регрессионных уравнений друг от друга?

4.4 Зачем нужны таблицы суммарных виртуальных частот каждой случайной величины?

4.5 Зачем нужна таблица двумерного виртуального распределения?

4.6 Как находятся частоты njl­
на пересечении строк и столбцов таблицы двумерного виртуального распределения?

4.7 Как рассчитывается величина квадрата корреляционного отношения?

4.8 Что такое модифицированный индекс Фехнера (МИФ)? Какими достоинствами и недостатками он обладает?

4.9 Каков общий алгоритм расчета регрессионного уравнения hx­ порядка?

4.10 В каких случаях следует искать уравнение регрессии порядка hx­­>1, а в каких следует ограничиться только уравнением первого порядка?

4.11 Какие уравнения регрессии, найденные с использованием различных мер тесноты линейной связи, являются более точными? Почему?

5  РЕКОМЕНДУЕМАЯ   ЛИТЕРАТУРА

5.1 Митропольский А.К. Техника статистических вычислений. – 2-е изд., перераб. и доп. – М.: Наука, 1971. – 576 с.

5.2 Долгов Ю.А. Статистическое моделирование. — Тирасполь: РИО  ПГУ, 2002. – 280 с. (c. 39-44).

5.3 Метод повышения точности вычисления параметров выборки малого объема // Настоящее учебное пособие. Лабораторная работа № 6.

5.4 Столяренко Ю.А. Корреляция по выборкам малого объема // МНТК Информационные технологии в науке, технике и образовании. Аланья — Севастополь, май – сентябрь 2004 г., С. 110

Загрузка...