Метод повышения точности вычисления параметров выборки малого объема. |

Лабораторная работа №6.

Цель работы: — выработать навыки обработки результатов пассивного эксперимента для нахождения параметров выборки малого объема при значительном повышении их точности по сравнению с классическими методами расчета.

1 ОБЩИЕ ПОЛОЖЕНИЯ

1.1 Предпосылки метода

Выборкой малого объема называется выборка, содержащая n=3÷15 элементов. Для устранения потерь информации при обработке малой выборки необходимо считать каждое измерение центром некоторого виртуального распределения с известным законом. Это позволяет существенно уменьшить интервал неопределённости выборочных оценок, что, в свою очередь, позволяет, например значительно снизить объёмы контрольных выборок и применить известные статистические методы для разбраковки продукции по ходу технологического процесса там, где это ранее было принципиально невозможно.

В основу метода положено предварительное числовое определение эмпирической функции распределения:

; (6.1)

где f0(x) – априорная компонента, несущая информацию о форме закона распределения; a – ценность априорной информации; – эмпирическая компонента, которую можно представить в виде:

; (6.2)

где – нормирующий множитель; – некоторая функция (ядро) при i-ом измерении; – половина интервала определения ядра; – коэффициенты нормировки при ядрах.

Полная оценка плотности распределения (рисунок 6.1) удовлетворяет весьма важным для оценок свойствам состоятельности и несмещенности. Эффективность оценки зависит от формы ядра. Исследованиями установлено, что наиболее простой формой ядра является прямоугольная ( в интервале ), а наиболее оптимальной – дельтовидная.

а) б)

Рисунок 6.1 — Плотность распределения при прямоугольной (а)

и дельтаобразной (б) форме ядра

Практический алгоритм вычисления эмпирической функции распределения f*(X) можно представить нижеследующим образом:

1. Установить предполагаемый класс распределений f(Х) (например, нормальный закон).

2. Определить интервал изменения (а,b)
контролируемой величины X в абсолютных единицах (а.е.).

3. Вычислить оптимальное значение в а.е. :

, [а.е.] (6.3)

вспомогательный коэффициент определяется эмпирически для каждого класса распределения f(x) и объема выборки n.
Числовые данные вычисляются по формулам таблицы 6.1.

4. Расположить элементы выборки Х1,…,Хi,…,Хn в порядке возрастания их значений.

5. Для каждого элемента выборки Xi, определить верхнюю XiВ и нижнюю XiН границы интервала определения i-ой дельтаобразной функции:

Таблица 6.1 – Аппроксимационные формулы для расчета

вспомогательного коэффициента от объема выборки n

Закон распределения	Форма ядра	Уравнение регрессии	Коридор существования
Нормальный	Прямоугольная		± 0,0048
Нормальный	Дельтаобразная		± 0,0034
Экспоненциальный	Прямоугольная		± 0,0072
Экспоненциальный	Дельтаобразная.		± 0,0050
Вейбулла	Прямоугольная		± 0,0028
Вейбулла	Дельтаобразная.		± 0,0058

6. Для каждого элемента выборки Xi определить корректировочный коэффициент Аi, который равен:

для нормального закона распределения ;

для экспоненциального распределения

7. Интервал (a, b) разбить на k интервалов дискретности (k = 20 — 30). При этом величина – центр j-го интервала дискретности.

8. Вычислить значение нормированной плотности на интервал с центром в точке Xj:

; (6.4)

где – значения ненормированной оценки плотности в центре j-го интервала дискретности. Например, для дельтаобразной формы ядра:

, [1/а.е.] (6.5)

где — условие «накрывания» интервалом задания i-ой дельтаобразной функции центра j-го интервала дискретности:

(6.6)

Вопрос об априорной компоненте входящей в выражение (6.5) ненормированной оценки плотности в центре j-го интервала может быть решен по-разному. В простейшем случае можно считать, что априорная компонента обратно пропорциональна интервалу определения величины .

В более сложных случаях для нормального распределения , где математическое ожидание и СКО оценивается по достаточно большому количеству выборок.

Тогда ненормированная оценка плотности для нормального закона запишется в виде:

(6.7)

где символом обозначено выражение в фигурных скобках.

1.2 Расчетные формулы

Эмпирическое распределение и его компоненты могут быть использованы для получения оценок параметров распределения повышенной эффективности, если воспользоваться процедурой формального определения математического ожидания и дисперсии . Оценки соответствующих величин будут равны:

; (6.8)

, (6.9)

где есть частота попадания в j-й интервал дискретности.

Подставляя в выражения (6.8) и (6.9) развернутое значение частости , а в него – развернутое значение ненормированной плотности в виде (6.4), можно получить формулы оценок параметров выборки, удобные для расчета на ЭВМ. Так для нормального закона распределения:

; (6.10)

. (6.11)

Следует отметить, что во всех случаях границы (a, b) задаются на основании предварительной обработки данных выборки, следовательно, априорная информация о границах отсутствует, что эквивалентно условию . В этом случае выражения (6.10) и (6.11) существенно упрощаются и имеют вид:

, (6.12)

. (6.13)

Для определения границ интервала (a,b) в случае, если они не заданы, можно воспользоваться формулами

(6.14)

; (6.15)

. (6.16)

где — среднее арифметическое,

— среднеквадратичное отклонение исходной выборки малого объема.

Доверительные интервалы оценок рассчитываются по формулам

; (6.17)

, (6.18)

где tT – табличное значение критерия Стьюдента для q уровня значимости ν=n-1 степени свободы;

— табличное значение χ2 – распределения при q/2 и 1-q/2 уровнях значимости и ν=n-1 степени свободы.

Расчет оценок математического ожидания и дисперсии проведенный по формулам (5.12) и (5.13), приводит к существенному сокращению их доверительного интервала, что эквивалентно увеличению объема выборки или, что-то же самое, извлечению из выборки дополнительной информации.

1.3 Расчет примера

Пусть нижеприведенная выборка объемом n=12, взятая из генеральной совокупности, предположительно распределенной по нормальному закону:

Хi

17,6

18,0

18,4

18,7

19,9

20,3

21,5

21,8

22,0

22,5

23,0

24,4

Параметры выборки, рассчитанные по классическим формулам, равны:

Интервальная оценка математического ожидания при табличном значении критерия Стьюдента tТ (q=5%; ν=12-1)=2,201 равна

Интервальная оценка дисперсии при χ2 (q/2=0,025; ν=12-1)=21,92; χ2 (1-q/2=0,975; ν=12-1)=3,816 равна

То же для СКО

Границы существования интервала (a,b) находятся по формулам (6.14)

Рисунок 6.2 – Кривые плотности вероятности для каждого измерения Хi

Рисунок 6.3 – График суммарного распределения с центрами

в экспериментальных точках для выборки X

Расчет вспомогательного коэффициента производится по соответствующей формуле таблицы 6.1 для нормального закона распределения и дельтаобразной формы ядра

Половина интервала определения ядра находится по формуле

или

Примем число интервалов дискретности k=30, тогда середины интервалов дискретности, рассчитанные по формуле (6.16), можно представить в виде

а условное распределение для каждой точки Хi — в виде рисунка 6.2.

Дальнейший расчет связан с вычислением экспонент

при полном переборе всех Хj и Хi. Результат представлен в таблице 6.2. Предпоследний столбец представляет собой сумму экспонент для каждого j-го интервала дискретности (рисунок 6.3)

общая сумма которых есть число N элементов виртуальной выборки. Другими словами, проделанные преобразования эквивалентны увеличению выборки в N/n=107,91/12≈9 раз.

Последний столбец таблица 6.2 представляет собой суммы чисел предыдущего столбца по тройкам.

Всего таких чисел оказалось 10, что соответствует гистограмме точечных распределений в виртуальной области (рисунок 6.2).

Таблица 6.2 – Расчет экспонент при переборе всех комбинаций Хj и Хi

и расчет частот nj гистограммы виртуальной выборки

j	Xj	Исходная выборка Xi с номерами i													nj
		1	2	3	4	5	6	7	8	9	10	11	12
		17,6	18,0	18,4	18,7	19,9	20,3	21,5	21,8	22,0	22,5	23,0	24,4
1	15,60	0,294	0,172	0,091	0,053	0,004								0,614
2	15,95	0,435	0,277	0,159	0,099	0,008								0,978	3,059
3	16,30	0,596	0,413	0,260	0,172	0,019	0,007							1,467
4	16,65	0,759	0,573	0,392	0,277	0,040	0,017	0,001						2,059
5	17,00	0,896	0,737	0,549	0,413	0,076	0,036	0,002						2,709	8,127
6	17,35	0,981	0,879	0,714	0,573	0,137	0,070	0,005						3,359
7	17,70	0,997	0,973	0,861	0,737	0,228	0,127	0,012	0,006					3,941
8	18,05	0,940	0,999	0,963	0,879	0,351	0,213	0,026	0,014	0,008				4,393	13,021
9	18,40	0,822	0,952	1,000	0,973	0,502	0,331	0,053	0,029	0,019	0,006			4,687
10	18,75	0,667	0,842	0,963	0,999	0,667	0,480	0,099	0,058	0,040	0,013	0,004		4,832
11	19,10	0,503	0,691	0,861	0,952	0,822	0,644	0,172	0,108	0,076	0,029	0,010		4,868	14,554
12	19,45	0,351	0,526	0,714	0,842	0,940	0,802	0,277	0,185	0,137	0,058	0,021	0,001	4,854
13	19,80	0,228	0,371	0,549	0,691	0,997	0,926	0,413	0,294	0,228	0,108	0,044	0,002	4,851
14	20,15	0,137	0,243	0,392	0,526	0,981	0,993	0,573	0,435	0,351	0,185	0,083	0,004	4,903	14,781
15	20,50	0,076	0,148	0,260	0,371	0,896	0,988	0,737	0,596	0,503	0,294	0,148	0,010	5,027
16	20,85	0,040	0,083	0,160	0,243	0,759	0,912	0,879	0,759	0,667	0,435	0,243	0,021	5,201
17	21,20	0,019	0,044	0,091	0,148	0,596	0,781	0,973	0,896	0,822	0,596	0,371	0,044	5,381	16,085
18	21,55	0,008	0,021	0,048	0,083	0,435	0,620	0,999	0,981	0,940	0,759	0,526	0,083	5,503
19	21,90		0,010	0,024	0,044	0,294	0,457	0,952	0,997	0,997	0,896	0,691	0,148	5,510
20	22,25		0,004	0,011	0,021	0,185	0,313	0,842	0,940	0,981	0,981	0,842	0,243	5,363	15,922
21	22,60			0,004	0,010	0,108	0,198	0,691	0,822	0,896	0,997	0,952	0,371	5,049
22	22,95				0,004	0,058	0,117	0,526	0,667	0,759	0,940	0,999	0,526	4,596
23	23,30					0,029	0,064	0,371	0,503	0,596	0,822	0,973	0,691	4,049	12,107
24	23,65					0,013	0,032	0,243	0,351	0,435	0,667	0,879	0,842	3,462
25	24,00					0,006	0,015	0,148	0,228	0,294	0,503	0,737	0,952	2,883
26	24,35						0,007	0,083	0,137	0,185	0,351	0,573	0,999	2,335	7,060
27	24,70							0,044	0,076	0,108	0,228	0,413	0,973	1,842
28	25,05							0,021	0,040	0,058	0,137	0,277	0,879	1,412
29	25,40							0,010	0,019	0,029	0,076	0,172	0,737	1,043	3,193
30	25,75							0,004	0,008	0,014	0,040	0,099	0,573	0,738
														107,909	107,909

Для этой гистограммы можно по формулам (6.12) и (6.13) определить оценки математического ожидания и дисперсии

;

для чего достаточно каждый элемент последнего столбца таблицы 6.2 умножить на Xj и Xj2 соответственно и просуммировать их по всем j, что дает числители искомых величин. Знаменатели равны N=107,91, то есть объему виртуальной выборки.

Рисунок 6.2 – Гистограмма точечных распределений в виртуальной области

Проверим полученную виртуальную гистограмму на соответствие нормальному закону распределения. С этой целью следует найти величины расхождения объемов разрядов гистограммы и теоретического нормального закона, приведенного к масштабу эксперимента:

где ;

— масштабное число;

С=1,05 – шаг гистограммы;

— нормированный центрированный аргумент.

Результаты расчетов сведены в таблицу 6.3.

Согласно данным таблицы Приложения А.1 вероятность того, что гистограмма рисунка 6.2 при числе степеней свободы ν=8-3=5 имеет нормальное распределение, равна

Таким образом, можно считать доказанным, что гистограмма рисунка 6.2 распределена по нормальному закону

Таблица 6.3 — Результаты сравнения объемов разрядов гистограммы

теоретическому распределению

j
1	-2,0088	3,06	2,57	1,0145
2	-1,5600	8,13	5,72	1,0145
3	-1,1112	13,02	10,42	0,6488
4	-0,6625	14,55	15,51	0,0594
5	-0,2137	14,78	18,88	0,8904
6	0,0855	16,08	19,25	0,5220
7	0,5342	15,99	16,75	0,0411
8	1,1326	12,11	10,17	0,3701
9	1,5814	7,06	5,53	0,6392
10	2,0301	3,19	2,6	0,6392
	—	107,9	107,9	4,1855

Интервальная оценка параметров этого виртуального распределения можно определить по тем же формулам (6.17) и (6.18), сделав поправку на новый объем выборки N=107,91

;

Отсюда можно подсчитать выигрыш виртуальной выборки в длине интервала (т.е. в разбросе неопределенности, обусловленной объемом выборки) по сравнению с исходной выборкой малого объема:

для среднего арифметического раза;

для выборочной дисперсии раза.

2 ПОРЯДОК ПРОВЕДЕНИЯ РАБОТЫ

2.1 По таблице «Результаты пассивного эксперимента» из лабораторной работы № 4 выбрать один из трех факторов Х в качестве выборки малого объема.

2.2 Рассчитать параметры выборки – среднее арифметическое и выборочную дисперсию — по классическим формулам математической статистики.

2.3 Рассчитать интервальные оценки для математического ожидания М[Х] и генеральной дисперсии σ2 выборки малого объема.

2.4 Определить границы существования интервала (a,b) для виртуальной выборки метода точечных распределений.

2.5 Рассчитать вспомогательный коэффициент по одной из формул таблицы 6.1 и величину половины интервала определения ядра .

2.6 Для числа интервалов дискретности k=30 найти числовую формулу определения середины интервала и подготовить таблицу – пустографку, подобную таблице 6.2.

2.7 Заполнить таблицу – пустографку числовыми значениями экспонент при всех комбинациях Хj и Хi.

2.8 Найти гистограмму точечных распределений в виртуальной области, рассчитать ее параметры – среднее арифметическое и выборочную дисперсию .

2.9 Доказать соответствие (несоответствие) найденной гистограммы нормальному закону распределения.

2.10 Найти интервальные оценки параметров М[Х] и σ2
виртуальной выборки и сравнить их с аналогичными оценками исходной выборки малого объема.

2.11 Сделать выводы по работе.

3 СОДЕРЖАНИЕ ОТЧЕТА

Отчет по лабораторной работе должен содержать исходную выборку малого объема, таблицу для расчета гистограммы и саму гистограмму виртуального распределения, все расчеты по пп. 2.1 – 2.10.

При подготовке к защите лабораторной работы необходимо ознакомиться с контрольными вопросами и продумать ответы на них.

4 КОНТРОЛЬНЫЕ ВОПРОСЫ

4.1 Какая выборка считается выборкой малого объема? Почему?

4.2. Какая идея положена в основу метода точечных распределений? На чем она основана?

4.3. Какие формы ядер вы знаете? Как форма ядра отражается на точности метода?

4.4. Как можно определить область существования ядра? От чего она зависит?

4.5. Как можно определить интервал изменения (a,b) случайной величины Х?

4.6. Почему интервал (a,b) нужно делить на k=20-30 интервалов дискретности?

4.7. Отличаются ли точечные параметры малой выборки от аналогичных параметров виртуальной выборки? А интервальные оценки? Почему?

4.8. На чем основана гистограмма точечных распределений в виртуальной области?

4.9. Как можно определить вид закона распределения по гистограмме точечных распределений?

4.10. Как можно доказать правильность определения вида закона распределения?

5 РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

5.1 Гаскаров Д.В., Шаповалов В.И. Малая выборка. – М.: Статистика, 1978. – 248 с.

5.2 Ивченко Г.И., Медведев Ю.И. Разделимые статистики и проверка гипотез. Случай малых выборок // Теор. Вер. и ее примен., 1978, XXIII, вып. 4. С.796-806.

5.3 Столяренко Ю.А. Анализ рядов динамики по выборкам малого объема. // Автоматизированная обработка многофакторной информации для получения математических и информационных моделей (промежуточный отчет) № ГР. 02.99.0030, Тирасполь: ПГУ, 1999. – С. 74-100.

5.4. Столяренко Ю.А., Долгов А. Ю. Исследование границ выборок малого и среднего объема. // Сб. тр. МНТК Информационные технологии в науке, технике и образовании. Т I. Аланья — Севастополь, май – сентябрь 2004 г. М: МГАПИ, 2004, – С. 119-121.

Шпоры и лекции в ПГУ — студентам ПМР.