Метод повышения точности вычисления параметров выборки малого объема.


Лабораторная работа  №6. 

Цель работы: — выработать навыки обработки результатов пассивного эксперимента для нахождения параметров выборки малого объема при значительном повышении их точности по сравнению с классическими методами расчета.

1  ОБЩИЕ  ПОЛОЖЕНИЯ

1.1 Предпосылки метода

Выборкой малого объема называется выборка, содержащая n=3÷15 элементов. Для устранения потерь информации при обработке малой выборки необходимо считать каждое измерение центром некоторого виртуального распределения с известным законом. Это позволяет существенно уменьшить интервал неопределённости выбороч­ных оценок, что, в свою очередь, позволяет, например значительно снизить объёмы контрольных выборок и применить известные статистические методы для разбраковки продукции по ходу технологического процесса там, где это ра­нее было принципиально невозможно.

В основу метода положено предварительное числовое определение эмпирической функции распределения:

;                                       (6.1)

где    f0(x) – априорная компонента, несущая информацию о форме за­кона распределения;   a – ценность априорной информации;  – эмпирическая компонента, которую можно представить в виде:

;                                              (6.2)

где       – нормирующий множитель;  – некоторая функция (ядро) при i-ом измерении;  – половина интервала определения ядра;  – коэффициенты нормировки при ядрах.

 Полная оценка плотности распределения (рисунок 6.1) удовлетворяет весь­ма важным для оценок свойствам состоятельности и несмещенности. Эффективность оценки зависит от формы ядра. Исследованиями установлено, что наиболее простой формой ядра является прямоугольная ( в интервале ), а наиболее оптимальной – дельтовидная.

                                                           а)                            б)

Рисунок 6.1 — Плотность распределения при прямоугольной (а)

и дельтаобразной (б) форме ядра

Практический алгоритм вычисления эмпирической функции распре­деления f*(X) можно представить нижеследующим образом:

1. Установить предполагаемый класс распределений f(Х) (например, нормаль­ный закон).

2. Определить интервал изменения (а,b)
контролируемой величины X в абсолютных единицах (а.е.).

3. Вычислить оптимальное значение  в а.е. :

,  [а.е.]                                         (6.3)

вспомогательный коэффициент  определяется эмпирически для ка­ждого класса распределения f(x) и объема выборки n.
Числовые данные вычисляются по формулам таблицы 6.1.

4. Расположить элементы выборки Х1,…,Хi,…,Хn в порядке возрастания их значений.

5. Для каждого элемента выборки Xi, определить верхнюю XiВ и нижнюю XiН границы интервала определения i-ой дельтаобразной функции:

.

Таблица 6.1 – Аппроксимационные формулы для расчета

вспомогательного коэффициента  от объема выборки n

Закон

распределения

Форма ядра

Уравнение регрессии

Коридор

существования

Нормальный

Прямоугольная

± 0,0048

Дельтаобразная

± 0,0034

Экспоненциальный

Прямоугольная

± 0,0072

Дельтаобразная.

± 0,0050

Вейбулла

Прямоугольная

 ± 0,0028

Дельтаобразная.

± 0,0058

6. Для каждого элемента выборки Xi  определить корректировочный коэффициент Аi, который равен:

для нормального закона распределения ;

для экспоненциального распределения

7. Интервал (a, b) разбить на k интервалов дискретно­сти (k = 20 — 30). При этом величина  – центр j-го интервала дискретности.

8. Вычислить значение нормированной плотности  на ин­тервал с центром в точке Xj:

;                                         (6.4)

где       – значения ненормированной оценки плотности в центре j-го интервала дискретности. Например, для дельтаобразной формы ядра:

, [1/а.е.]                          (6.5)

где       — условие «накрывания» интервалом задания  i-ой дель­таобразной функции центра j-го интервала дискретности:

                                                                                                 (6.6)

Вопрос об априорной компоненте  входящей в выражение (6.5) ненормированной оценки плотности в центре j-го интервала  мо­жет быть решен по-разному. В простейшем случае можно считать, что априорная компонента обратно пропорциональна интервалу определения величины .

В более сложных случаях для нормального распределения , где математическое ожидание  и СКО  оценивается по достаточно большому количеству выборок.

Тогда ненормированная оценка плотности для нормального закона запишется в виде:

  (6.7)

где символом  обозначено выражение в фигурных скобках.

1.2 Расчетные формулы

Эмпирическое распределение  и его компоненты могут быть использованы для получения оценок параметров распределения повы­шенной эффективности, если воспользоваться процедурой формального определения математического ожидания  и дисперсии . Оценки со­ответствующих величин будут равны:

;                          (6.8)

                             ,              (6.9)

где       есть частота попадания в j-й интервал дискретности.

Подставляя в выражения (6.8) и (6.9) развернутое значение частости , а в него – развернутое значение ненормированной плотности  в виде (6.4), можно получить формулы оценок параметров выборки, удобные для расчета на ЭВМ. Так для нормального закона распределения:

;                                                   (6.10)

.                                          (6.11)

Следует отметить, что во всех случаях границы (a, b) задаются на основании предварительной обработки данных выборки, следовательно, априорная информация о границах отсутствует, что эквивалентно усло­вию . В этом случае выражения (6.10) и (6.11) существенно упрощаются и имеют вид:

            ,                                        (6.12)

.              (6.13)

            Для определения границ интервала (a,b) в случае, если они не заданы, можно воспользоваться формулами

                                         (6.14)

     ;                                                     (6.15)

                                           .                                  (6.16)

где   — среднее арифметическое,

 — среднеквадратичное отклонение исходной выборки малого объема.

Доверительные интервалы оценок рассчитываются по формулам

;                               (6.17)

,                                                 (6.18)

где tT – табличное значение критерия Стьюдента для q уровня значимости ν=n-1 степени свободы;

 — табличное значение χ2 – распределения при q/2 и 1-q/2 уровнях значимости и ν=n-1 степени свободы.

Расчет оценок математического ожидания  и дисперсии  прове­денный по формулам (5.12) и (5.13), приводит к существен­ному сокращению их доверительного интервала, что эквивалентно увеличению объема выборки или, что-то же самое, извлечению из выборки дополни­тельной информации.

1.3 Расчет примера

Пусть нижеприведенная выборка объемом n=12, взятая из генеральной совокупности, предположительно распределенной по нормальному закону:

Хi

17,6

18,0

18,4

18,7

19,9

20,3

21,5

21,8

22,0

22,5

23,0

24,4

Параметры выборки, рассчитанные по классическим формулам, равны:

   .

Интервальная оценка математического ожидания при табличном значении критерия Стьюдента tТ (q=5%; ν=12-1)=2,201 равна

   

            Интервальная оценка дисперсии при χ2 (q/2=0,025; ν=12-1)=21,92; χ2 (1-q/2=0,975; ν=12-1)=3,816  равна

То же для СКО

.

 Границы существования интервала (a,b) находятся по формулам (6.14)

Рисунок 6.2 – Кривые плотности вероятности для каждого измерения Хi

Рисунок 6.3 – График суммарного распределения с центрами

в экспериментальных точках  для выборки X

            Расчет вспомогательного коэффициента  производится по соответствующей формуле таблицы 6.1 для нормального закона распределения и дельтаобразной формы ядра

            Половина интервала определения ядра находится по формуле

или

            Примем число интервалов дискретности k=30, тогда середины интервалов дискретности, рассчитанные по формуле (6.16), можно представить в виде

а условное распределение для каждой точки Хi  — в виде рисунка 6.2.

            Дальнейший расчет связан с вычислением экспонент

при полном переборе всех Хj и Хi. Результат представлен в таблице 6.2. Предпоследний столбец представляет собой  сумму экспонент для каждого j-го интервала дискретности (рисунок 6.3)

,

общая сумма которых   есть число N элементов виртуальной выборки. Другими словами, проделанные преобразования эквивалентны увеличению выборки в N/n=107,91/12≈9 раз.

Последний столбец таблица 6.2 представляет собой суммы чисел предыдущего столбца по тройкам.

Всего таких чисел оказалось 10, что соответствует гистограмме точечных распределений в виртуальной области (рисунок 6.2).

Таблица 6.2 – Расчет экспонент при переборе всех комбинаций Хj и Хi

и расчет частот nj гистограммы виртуальной выборки

j

Xj

Исходная выборка Xi с номерами i

nj

1

2

3

4

5

6

7

8

9

10

11

12

17,6

18,0

18,4

18,7

19,9

20,3

21,5

21,8

22,0

22,5

23,0

24,4

1

15,60

0,294

0,172

0,091

0,053

0,004

0,614

2

15,95

0,435

0,277

0,159

0,099

0,008

0,978

3,059

3

16,30

0,596

0,413

0,260

0,172

0,019

0,007

1,467

4

16,65

0,759

0,573

0,392

0,277

0,040

0,017

0,001

2,059

5

17,00

0,896

0,737

0,549

0,413

0,076

0,036

0,002

2,709

8,127

6

17,35

0,981

0,879

0,714

0,573

0,137

0,070

0,005

3,359

7

17,70

0,997

0,973

0,861

0,737

0,228

0,127

0,012

0,006

3,941

8

18,05

0,940

0,999

0,963

0,879

0,351

0,213

0,026

0,014

0,008

4,393

13,021

9

18,40

0,822

0,952

1,000

0,973

0,502

0,331

0,053

0,029

0,019

0,006

4,687

10

18,75

0,667

0,842

0,963

0,999

0,667

0,480

0,099

0,058

0,040

0,013

0,004

4,832

11

19,10

0,503

0,691

0,861

0,952

0,822

0,644

0,172

0,108

0,076

0,029

0,010

4,868

14,554

12

19,45

0,351

0,526

0,714

0,842

0,940

0,802

0,277

0,185

0,137

0,058

0,021

0,001

4,854

13

19,80

0,228

0,371

0,549

0,691

0,997

0,926

0,413

0,294

0,228

0,108

0,044

0,002

4,851

14

20,15

0,137

0,243

0,392

0,526

0,981

0,993

0,573

0,435

0,351

0,185

0,083

0,004

4,903

14,781

15

20,50

0,076

0,148

0,260

0,371

0,896

0,988

0,737

0,596

0,503

0,294

0,148

0,010

5,027

16

20,85

0,040

0,083

0,160

0,243

0,759

0,912

0,879

0,759

0,667

0,435

0,243

0,021

5,201

17

21,20

0,019

0,044

0,091

0,148

0,596

0,781

0,973

0,896

0,822

0,596

0,371

0,044

5,381

16,085

18

21,55

0,008

0,021

0,048

0,083

0,435

0,620

0,999

0,981

0,940

0,759

0,526

0,083

5,503

19

21,90

0,010

0,024

0,044

0,294

0,457

0,952

0,997

0,997

0,896

0,691

0,148

5,510

20

22,25

0,004

0,011

0,021

0,185

0,313

0,842

0,940

0,981

0,981

0,842

0,243

5,363

15,922

21

22,60

0,004

0,010

0,108

0,198

0,691

0,822

0,896

0,997

0,952

0,371

5,049

22

22,95

0,004

0,058

0,117

0,526

0,667

0,759

0,940

0,999

0,526

4,596

23

23,30

0,029

0,064

0,371

0,503

0,596

0,822

0,973

0,691

4,049

12,107

24

23,65

0,013

0,032

0,243

0,351

0,435

0,667

0,879

0,842

3,462

25

24,00

0,006

0,015

0,148

0,228

0,294

0,503

0,737

0,952

2,883

26

24,35

0,007

0,083

0,137

0,185

0,351

0,573

0,999

2,335

7,060

27

24,70

0,044

0,076

0,108

0,228

0,413

0,973

1,842

28

25,05

0,021

0,040

0,058

0,137

0,277

0,879

1,412

29

25,40

0,010

0,019

0,029

0,076

0,172

0,737

1,043

3,193

30

25,75

0,004

0,008

0,014

0,040

0,099

0,573

0,738

107,909

107,909

Для этой гистограммы можно по формулам (6.12) и (6.13) определить оценки математического ожидания и дисперсии

;     

для чего достаточно каждый элемент последнего столбца таблицы 6.2 умножить на Xj и Xj2 соответственно и просуммировать их по всем j, что дает числители искомых величин. Знаменатели равны N=107,91, то есть объему виртуальной выборки.

Рисунок 6.2 – Гистограмма точечных распределений в виртуальной области

Проверим полученную виртуальную гистограмму на соответствие нормальному закону распределения. С этой целью следует найти величины  расхождения объемов разрядов гистограммы и теоретического нормального закона, приведенного к масштабу эксперимента:

,

где ;

        — масштабное число;

       С=1,05 – шаг гистограммы;

         — нормированный центрированный аргумент.

            Результаты расчетов сведены в таблицу 6.3.

            Согласно данным таблицы Приложения А.1 вероятность того, что гистограмма рисунка 6.2 при числе степеней свободы ν=8-3=5 имеет нормальное распределение, равна

            Таким образом, можно считать доказанным, что гистограмма рисунка 6.2 распределена по нормальному закону

.

Таблица 6.3 — Результаты сравнения объемов разрядов гистограммы

теоретическому распределению

j

1

-2,0088

3,06

2,57

1,0145

2

-1,5600

8,13

5,72

3

-1,1112

13,02

10,42

0,6488

4

-0,6625

14,55

15,51

0,0594

5

-0,2137

14,78

18,88

0,8904

6

0,0855

16,08

19,25

0,5220

7

0,5342

15,99

16,75

0,0411

8

1,1326

12,11

10,17

0,3701

9

1,5814

7,06

5,53

0,6392

10

2,0301

3,19

2,6

107,9

107,9

4,1855

            Интервальная оценка параметров этого виртуального распределения можно определить по тем же формулам (6.17) и (6.18), сделав поправку на новый объем выборки N=107,91

   ;

    .

            Отсюда можно подсчитать выигрыш виртуальной выборки в длине интервала (т.е. в разбросе неопределенности, обусловленной объемом выборки) по сравнению с исходной выборкой малого объема:

для среднего арифметического   раза;

для выборочной дисперсии  раза.

2 ПОРЯДОК ПРОВЕДЕНИЯ РАБОТЫ

            2.1 По таблице «Результаты  пассивного  эксперимента» из лабораторной работы  № 4 выбрать один из трех факторов Х в качестве выборки малого объема.

            2.2 Рассчитать параметры выборки – среднее арифметическое  и выборочную дисперсию   — по классическим формулам математической статистики.

            2.3 Рассчитать интервальные оценки для математического ожидания М[Х] и генеральной дисперсии σ2  выборки малого объема.

            2.4 Определить границы существования интервала (a,b) для виртуальной выборки метода точечных распределений.

            2.5 Рассчитать вспомогательный коэффициент  по одной из формул таблицы 6.1 и величину половины интервала определения ядра .

            2.6 Для числа интервалов дискретности k=30 найти числовую формулу определения середины интервала и подготовить таблицу – пустографку, подобную таблице 6.2.

            2.7 Заполнить таблицу – пустографку числовыми значениями экспонент при всех комбинациях Хj и Хi.

            2.8 Найти гистограмму точечных распределений в виртуальной области, рассчитать ее параметры – среднее арифметическое  и выборочную дисперсию .

            2.9 Доказать соответствие (несоответствие) найденной гистограммы нормальному закону распределения.

            2.10 Найти интервальные оценки параметров М[Х] и σ2
виртуальной выборки и сравнить их с аналогичными оценками исходной выборки малого объема.

            2.11 Сделать выводы по работе.

3 СОДЕРЖАНИЕ ОТЧЕТА

            Отчет по лабораторной работе должен содержать исходную выборку малого объема, таблицу для расчета гистограммы и саму гистограмму  виртуального распределения, все расчеты по пп. 2.1 – 2.10.

            При подготовке к защите лабораторной работы  необходимо ознакомиться с контрольными вопросами и продумать ответы на них.

4 КОНТРОЛЬНЫЕ ВОПРОСЫ

            4.1 Какая выборка считается выборкой малого объема? Почему?

            4.2. Какая идея положена в основу метода точечных распределений? На чем она основана?

            4.3. Какие формы ядер вы знаете? Как форма ядра отражается на точности метода?

            4.4. Как можно определить область существования ядра? От чего она зависит?

            4.5. Как можно определить интервал изменения (a,b) случайной величины Х?

            4.6. Почему интервал (a,b) нужно делить на k=20-30 интервалов дискретности?

            4.7. Отличаются ли точечные параметры малой выборки от аналогичных параметров виртуальной выборки? А интервальные оценки? Почему?

            4.8. На чем основана гистограмма точечных распределений в виртуальной области?

            4.9. Как можно определить вид закона распределения по гистограмме точечных распределений?

            4.10. Как можно доказать правильность определения вида закона распределения?

5  РЕКОМЕНДУЕМАЯ   ЛИТЕРАТУРА

5.1 Гаскаров Д.В., Шаповалов В.И. Малая выборка. – М.: Статистика, 1978. – 248 с.

5.2 Ивченко Г.И., Медведев Ю.И. Разделимые статистики и проверка гипотез. Случай малых выборок // Теор. Вер. и ее примен., 1978, XXIII, вып. 4. С.796-806.

5.3 Столяренко Ю.А. Анализ рядов динамики по выборкам малого объема. // Автоматизированная обработка многофакторной информации для получения математических и информационных моделей (промежуточный отчет) № ГР. 02.99.0030, Тирасполь: ПГУ, 1999. –  С. 74-100.

5.4. Столяренко Ю.А., Долгов А. Ю. Исследование границ выборок малого и среднего объема. // Сб. тр. МНТК Информационные технологии в науке, технике и образовании. Т I. Аланья — Севастополь, май – сентябрь 2004 г. М: МГАПИ, 2004, – С. 119-121.

Загрузка...