ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН


Лабораторная работа № 1

Цель работывыработать навыки по обработке полученных эксперимен­тальным путем статистических данных для определения характеристик случайных величин и выявления степени точности их определения, нахождения теоретическо­го закона распределения случайных величин и применения его в статистических расчетах.

 

1 Общие положения

1.1 Построение гистрограммы распределения

Конечная цель в исследовании распределения случайной величины — устано­вление уравнения кривой распределения этой величины.

Основными типами распределения являются нормальное распределение Гаус­са-Лапласа, биноминальное распределение Бернулли, -распределение и некоторые другие [1-3]. Все эти распределения обладают хорошо известными формулами, задача заключается лишь в том, чтобы правильно определить, какая из теоретических кривых наиболее полно совпадает с выбороч­ным распределением. Покажем, как это делается на примере нормального распре­деления, которое наиболее часто встречается при исследовании характеристик распределения параметров массовых электрорадиоэлементов.

Пусть задано определить вид и параметры кривых распределения по экспери­ментальным данным, представленным в таблице 1.1.

Таблица имитирует результаты контрольных измерений параметров одного ти­па электрорадиоэлементов после некоторой технологической операции, причем три параметра считаются первоначальными факторами (X-X), а один — выходным пока­зателем качества (Y).

Такая таблица представляет собой многомерную (четырехмерную) выборку. Каждый столбец этой таблицы является одномерной выборкой случайной величины X. Выборка объема n для случайной величины X — совокупность значений (X,…,Xn) этой случайной величины, полученных в результате n независимых экспериментов.

Таблица 1.1 – Исходные данные

Х

Х

Х

Y

Х

Х

Х

Y

Х

Х

Х

Y

245

256

29.4

64.2

249

271

20.4

65.3

209

237

16.9

56.0

274

268

22.5

68.2

151

282

17.5

54.7

299

311

23.2

76.5

318

282

21.2

75.0

238

229

24.2

59.4

195

285

24.1

61.2

232

315

24.5

69.3

300

245

32.8

47.1

299

316

24.1

77.3

243

198

23.5

56.1

212

157

21.4

47.1

152

304

18.4

57.7

153

330

25.2

61.9

193

304

28.0

63.8

300

302

19.3

75.0

251

320

25.9

72.3

195

202

24.7

51.0

248

364

24.8

77.2

197

234

22.0

54.9

219

260

20.0

60.4

238

219

25.3

58.3

217

244

27.4

59.1

258

247

27.4

64.4

292

267

22.0

70.1

223

246

18.6

59.0

230

248

25.8

61.0

238

322

24.0

70.8

274

279

25.0

69.9

144

288

21.9

55.2

343

309

24.5

82.0

193

257

18.0

56.7

172

341

25.7

65.5

274

248

17.4

65.1

145

315

21.7

58.6

220

246

18.4

58.6

265

309

26.3

72.2

225

293

21.7

65.4

278

215

27.5

62.8

309

303

19.2

76.2

319

234

27.2

70.0

208

284

21.6

62.3

263

194

17.4

57.2

215

266

26.8

61.5

204

280

23.0

61.5

323

298

32.1

78.9

299

286

18.5

72.9

273

231

30.8

64.6

205

319

34.8

67.9

192

287

19.8

60.5

180

286

23.3

59.4

215

253

22.6

59.4

207

242

21 .5

57.0

199

233

24.4

55.3

286

300

25.8

74.0

255

182

20.2

55.1

289

309

22.0

74.9

177

294

19.1

59.5

277

260

21.0

67.4

256

263

18.2

64.9

216

195

22.6

52.4

209

314

20.9

66.0

164

289

18.9

57.3

253

225

19.0

60.0

222

275

22.8

63.0

158

317

24.7

60.8

175

262

22.8

55.8

176

317

20.7

62.4

251

253

24.9

64.0

203

324

34.0

68.2

213

273

26.4

62.1

172

299

20.3

59.7

157

288

20.4

56.6

255

221

22.4

60.2

254

239

19.3

61.9

203

292

24.1

63.0

283

293

17.2

71.7

210

356

24.6

71.7

258

272

20.2

66.5

206

324

26.3

67.5

229

254

20.1

60.9

142

292

22.9

55.6

252

223

30.5

61.1

196

264

20.5

58.2

202

251

16.6

56.8

294

263

21.0

69.8

294

286

28.4

73.5

205

281

30.6

62.7

241

265

19.9

63.6

288

254

33.2

69.5

265

260

23.4

66.3

221

263

16.0

60.5

292

268

12.3

69.0

273

230

32.3

64.7

Продолжение таблицы 1.1

Х

Х

Х

Y

Х

Х

Х

Y

Х

Х

Х

Y

186

312

26.6

63.7

242.

267

22.9

64.4

205

255

16.8

57.7

222

276

29.8

64.0

278

240

24.3

65.5

340

207

31.6

69.7

241

280

24.2

66.0

319

284

24.5

75.7

188

253

19.6

55.8

261

303

24.8

71.3

324

311

23.2

78.3

215

255

22.2

59.6

341

301

17.6

79.5

278

229

30.7

64.9

185

337

25.4

66.5

260

266

21.1

66.1

160

295

22.2

58.0

149

288

17.1

55.2

214

286

18.8

62.8

260

262

17.4

65.2

338

281

24.7

77.6

195

302

25.6

63.4

167

278

18.3

56.2

228

228

29.3

58.9

201

248

21.3

57.0

293

286

22.6

72.7

300

323

24.4

78.3

270

281

23.4

69.4

215

242

21.1

57.9

205

243

26.7

57.5

301

299

22.1

75.2

270

224

17.8

61.7

255

279

21.2

67.1

172

337

25.2

65.0

328

299

24.6

78.7

252

292

22.5

68.6

228

244

19.8

59.5

211

261

26.3

60.4

214

281

27.5

63.4

157

291

17.6

56.6

226

213

17.9

55.2

129

282

20.0

52.5

330

316

24.0

80.9

336

301

17.7

79.0

165

333

27.9

64.0

203

259

22.4

58.7

194

240

24.9

55.6

207.

207

268

18.2

59.7

146

307

20.1

57.6

169

304

27.1

60.8

211.

211

254

22.0

59.0

343

313

25.9

82.3

197

275

21.2

59.8

235

299

17.3

66.7

262

296

17.1

69.5

194

198

24.4

50.4

324

331

25.9

82.1

181

242

22.0

54.0

245

251

22.8

62.7

312

273

24.3

73.5

218

302

17.7

65.1

190

316

25.4

64.5

243

223

15.8

58.1

195

268

20.9

58.7

256

278

22.9

67.4

236

278

23.5

65.1

238

236

23.7

60.2

230

198

24.0

54.6

190

223

25.6

53.1

258

325

24.9

73.6

241

222

19.1

58.2

228

202

23.9

54.8

202

229

24.6

55.2

228

181

20.0

51.8

199

311

26.8

65.2

289

336

33.2

79.7

272

260

23.4

28.2

282

335

27.5

78.0

255

178

14.6

53.9

309

251

18.7

69.8

Величины X, i=1,2,….,n называют выборочными значениями. Говорят что выборка ,…,Хп) взята из генеральной совокупности случайной величины X, а под законом распределения генеральной совокупности понимают закон распределения X.

Для наглядного восприятия конкретной выборки, как правило, пользуются ги­стограммами.

Гистограмма — способ графического изображения интервальных распределе­ний. Она строится в декартовых координатах, где на оси абсцисс откладывают рав­ные отрезки, изображающие k интервалов (разрядов) значений случайной величины X, а на этих отрезках, как на основаниях, строят прямоугольники, высота которых соответствует частотам () появления случайной величины в j-м разряде, причем

=N , (1.1)

где N — объем выборки, то есть общее количество случайных величин в выборке. Величину разряда (шаг гистограммы) можно определить как

С = (Xmax -Xmin)/k, (1.2)

где k=1+3.32lgN целое число.

Тогда центры разрядов будут равны

= Xmin + (j-0.5)C, j = 1,2,..,k. (1.3)

Внимание! При всех расчетах число знаков после запятой в и С не должно быть больше одного по сравнению с исходными числами X, i = 1,…N. Если величины С и Xmin неудобны для восприятия, можно величину С увеличить до ближайшего удобного четного числа, но не более чем на 0.5 единицы последнего разряда ис­ходных чисел X, а величину Хmin уменьшить, но не более чем на десятикратную поправку величины разряда С.

Для примера: распределение фактора таблицы 1.1 имеет

Хmin = 129, а Хmax = 341. Тогда, по расчетам, k = 9, шаг С = 24.0, а величину Хmin следует смес­тить до 128. Саму гистограмму сравнительно легко построить вручную путем про­смотра таблицы исходных данных и откладывания каждого числа в виде прямо­угольника с основанием, равным ширине соответствующего разряда. После про­смотра всех чисел будем иметь гистограмму (рисунок 1.1), а, соединив середины плоских вершин каждого разряда гистограммы прямыми линиями, получим эксперимен­тальный график (полигон) функции плотности вероятности или дифференциального закона распределения.

Рисунок 1.1- Гистограмма и полигон Рисунок 1.2- Частоты выборо- (эмпирическая плотность чного (1) и выравнивающего (2)

вероятности) выборочного распределения

распределения

1.2 Нахождение оценок основных параметров ряда

распределения

Основными характеристиками любого распределения случайной величины яв­ляются моменты. Существуют три вида моментов ряда распределения:

а) простые или начальные моменты представляют собой сумму отклонения средних значений разрядов гистрограммы от некоторой произвольной точки Х, взя­той в h-й степени и умноженной на соответствующую относительную частоту

(1.4)

Если Х = 0 и при этом h=1, то

(1.5)

б) центральные моменты, которые отличаются от начальных только обяза­тельным равенством , то есть

μ= . (1.6)

Первый центральный момент μ = 0. Второй центральный момент μ назы­вается дисперсией распределения и часто обозначается . Отсюда можно вычис­лить среднеквадратическое отклонение.Оценка (приближенное значе­ние) этой величины обозначается S и называется выборочным среднеквадратич­ным отклонением; для практических расчетов ;

в) основные моменты представляют собой отношение центральных моментов к среднеквадратичному отклонению в соответствующей степени

. (1.7)

В частности r=1; r=0; r=1; r=; r= и т.д.

Третий основной момент служит мерой косости (асимметрией) кривой распреде­ления относительно центра

. (1.8)

Кривая распределения может обладать положительной ( > 0) и отрицательной ( < 0) косостью (асимметрией) и косостью, равной нулю (= 0). В последнем слу­чае говорят, что кривая распределения симметрична. Выражение

(1.9)

служит мерой крутости (эксцессом) выборочного распределения относительно кри­вой нормального распределения. Пределами существования меры крутости яв­ляется -2 < <+. При > 0 кривая распределения более круто уходит вверх, чем нормальное распределение, и является островершинной. При < 0 кривая является плосковершинной, переходящей в двувершинную (т.е. может быть вдавлена в сере­дине). Равенство =-2 указывает, что двувершинная кривая распределения рас­падается на две отдельные кривые. Вообще двувершинность указывает на неод­нородность ряда распределения, т.е. ряд представляет собой результат наложения каких-то двух однородных и, следовательно, одновершинных рядов.

При различного рода статистических вычислениях в силу конечности числа опытов большое значение имеют основные ошибки вычисления всех параметров ряда распределения. Их можно найти по следующим формулам:

. (1.10)

Одним из критериев (доказательств) того, что исследуемая случайная величи­на распределена по нормальному закону, является равенство нулю одновременно меры косости и меры крутости. Так как статистический нуль в отличие от алгебраи­ческого нуля равен удвоенной ошибке вычисления соответствующего параметра, то в случае

и

считается доказанным нормальный характер распределения исследуемой случай­ной величины.

Точность вычислений можно охарактеризовать следующим обобщающим па­раметром, который называется показателем точности исследований:

. (1.11)

Чем точнее произведено исследование, тем меньше показатель .

Для нашего примера (данные рисунок 1.1) в результате расчетов получим:

=37.6 ±3.7; = 1.56%;
μ = 2469.3; S ± = 49.69 ± 2.65;

μ = 9046.4; = 0.074±0.185;

μ = 13676663.4; = -0.754 ±0.390.

1.3 Выбор теоретической кривой распределения и доказательство ее правильности (неправильности)

Прежде всего по каким-либо признакам (внешний вид кривой и др.) высказы­вается гипотеза о том, что распределение случайной величины приближается к той или иной теоретической кривой распределения. Затем эта гипотеза проверяется с помощью вычислений выравнивающих частот выбранного распределения и одного из критериев согласия, который показывает, можем ли мы для данного выборочного (экспериментального) ряда распределения использовать объективные черты тео­ретического распределения (закона), упомянутого в гипотезе.

Покажем способ вычисления выравнивающих частот для нормального распре­деления, а также проверку гипотез с помощью критерия согласия Пирсона (хи-квадрат).

Для высказывания гипотезы о нормальном распределении нужно иметь хоть какие-то основания. Чаще всего о нормальности распределения судят «на глазок» по виду гистрограммы (рисунок 1.1), однако иногда она бывает настолько искажена, что трудно прийти к какому-либо выводу. В этом случае достаточно обратиться к мерам косости и крутости. При стремлении выборочного ряда распределения к нормальной кривой обе меры будут стремиться к нулю. На практике это означает, что если меры косости и крутости не превышают свои основные ошибки более, чем в 3-4 раза, то уже имеется основание для высказывания гипотезы о нормальном распределении.

Выравнивающие частоты, т.е. частоты, которые должны быть при нормальном (согласно нашей гипотезе) распределении для тех же аргументов, для которых у нас уже имеются выборочные частоты, наиболее просто подсчитать по формуле

, (1.12)

где — центрированный и нормированный аргумент, — масштабное число, которое служит для приведения теоретических значений нормального распределения к масштабу нашего опыта (чтобы эмпирическую и теоретическую кривые можно было сравнивать между собой).

Для большей наглядности следует совместить на одном рисунке выборочные выравнивающие частоты. Для этого на рисунке 1.2 совмещается полигон выборочного распределения из рисунка 1.1, выравнивающие частоты получаются вычислением по формуле (1.12) для каждого j-го разряда гистограммы.

Для того, чтобы оценить степень приближения выборочного распределения теоретической кривой, которая теперь представлена выравнивающим распределением. и в конечном счете доказать правильность или неправильность этого вы бора, воспользуемся одним из критериев согласия — критерием Р ().

Величина вычисляется по формуле:

, (1.13)

где — наблюденные, a — выравнивающие частоты.

Пример вычисления представлен в таблице 1.2. Величина является конкретным числовым значением ряда распределения -Пирсона, вероятность совпадения которого с теоретическим распределением и является мерой критерия согласия. Другими словами, вероятность того, что вычисленная величина совпадает с табличной и есть вероятность совпадения выборочного распределения с гипотетическим (в нашем случае с нормальным). Таблица вероятностей Р( ) представлена в таблице А.1 Приложения А.

При употреблении критерия согласия Р() важное значение имеет правильный подсчет числа степеней свободы. Следует помнить, что критерий Р() применим в тех случаях, когда количество опытов достаточно велико (порядка сотен), а каждом разряде число наблюдений составляет величину не менее 5 (если число данных в крайних разрядах гистограммы меньше 5, то разряды следует объединить. Эта особенность учтена в таблице 1.2).

Второй особенностью метода является условие приблизительного равенства объема всей выборки и суммы выравнивающих частот, то есть

. (1.14)

В случае, если эти величины значительно (более чем на 1) отличаются друг от друга, необходимо ввести в гистограмму дополнительные фиктивные разряды, в которых в частоты = 0, а выравнивающие частоты вычисляются в соответствии с формулой (1.12). Количество этих разрядов и их местоположение (в начале или в конце таблицы 1.2) должны обеспечивать максимально быстрое выполнение прибли­женного равенства (1.14).

Понятно, что в этом случае число разрядов уменьшается по сравнению с ис­ходным числом разрядов k. Принимая во внимание, что в случае нормального рас­пределения, устанавливаемого на основании выборочного распределения, частоты подчинены трем связям, а именно, сумма вы­борочных частот фиксирована (равна объему выборки N), с помощью этих же частот находим среднее значение случайной величины и среднеквадратичное от­клонение s, то число степеней свободы будет равно

.

Для нашего примера =6.4698; =6 и 0,30<P()<0.50

Такое значение не дает возможности с уверенностью утверждать или отрицать гипотезу. Существует простое правило (критерий Романовского), значительно об­легчающее применение критерия согласия Пирсона для оценки расхождения меж­ду выборочными и выравнивающими частотами: если

, (1.15)

то расхождение между ними можно полагать случайным, вызванным малостью объема выборки, в противном случае расхождение следует полагать существенным и признать, что выборочное распределение не подчиняется теоретическому закону, с которым его сравнивали. В нашем примере

.

Таблица 1.2 — Вычисление критерия — Пирсона

j

0

1

2

3

4

5

6

7

8

9

10

116

140

164

188

212

236

260

284

308

332

356

-2.47

-1.98

-1.49

-1.01

-0.52

-0.03

+0.45

+0.94

+1.43

+1.92

+2.40

0

6

14

23

37

26

26

21

13

10

0

1.62

4.82

11.28

20.56

29.92

34.23

30.95

22.02

12.32

5.42

1.92

0.0300

0.6559

0.2895

1.6753

1.9787

0.7917

0.04772

0.0375

0.9640

176

175.56

6.4698

Таким образом, расхождение между выравнивающими и выборочными часто­тами можно считать случайным, а выборочный ряд распределения — нормальным; (точнее это формулируется так: гипотеза о нормальности выборочного ряда распре­деления не противоречит данным опыта).

1.4 Определение аналитического выражения функции плотности вероятности и поля допуска

Так как мы доказали, что гипотеза о нормальном законе распределения не про­тиворечит данным опыта, можно воспользоваться теоретическим выражением функции плотности вероятности

f(X)= , (1.16)

подставляя в которое оценочные параметры, рассчитанные по опытным данным, получим аналитическое выражение дифференциального закона распределения (плотности вероятности) выборки. Для нашего примера

f(X)=0.00803 exp{-2.025.

По этому закону легко определить вероятность попадания исследуемой вели­чины в любой наперед заданный интервал значений

. (1.17)

Однако именно для нормального закона распределения этот интеграл не берется в элементарных функциях, и его следует определять численными методами, например, с использованием нормированной функции Лапласа. Выражение (1.17) в этом случае преобразуется:

, (1.18)

где — нормированная функция Лапласа, которая представлена в таблице А.3 При­ложения А.

Для нашего примера вероятность нахождения величины X в каком-либо интер­вале, например в 3-м и 4-м разрядах гистограммы, равна

;

;

.

Для сравнения подсчитаем суммарную частость (относительную частоту) в том же интервале, определенную прямо на гистограмме. Она равна

== (23 + 37) / 176 = 0.3409, что на 19 % отличается от теоретического значения. Объяснение этому обстоятельству легко найти при ис­следовании кривых (рисунок 1.2).

При назначении поля допуска по вероятностному закону конструктор (технолог) обязан связать его с одним из параметров этого закона. В случае нормального за­кона распределения и двустороннего симметричного допуска наиболее просто это сделать через среднеквадратичное отклонение

где — некоторый коэффициент пропорциональности. Выбор величины тесно связан с доверительной вероятностью, которая численно равна площади, за­ключенной между кривой распределения и осью абсцисс в пределах выбранного допуска (рисунок 1.3). Доверительную вероятность можно трактовать как вероятность получения правильного ответа (попадания деталей в допуск при массовом произ­водстве, процент выхода годных изделий и т.п.), а сопряженную с ней величину

q = 1 — P как уровень значимости (процент ошибки) принятого решения. Величину q исследователь выбирает сам исходя из того, к какой предметной области относится задача (для сельскохозяйственного производства q = 10 %, для медицины q = 0.1%). Как правило, в технических приложениях принято пользоваться величиной уров­ня значимости

q = 5 %. Некоторые значения и связанные с ней вероятности приведены в таблице 1.3.

Рисунок 1.3 – Связь между полем допуска и

доверительной вероятностью

Чем больше , тем больше P— т.е. увеличивается процент выхода год­ных изделий, но увеличивается и поле допуска, что может привести к невозмож­ности сочетать данное изделие с другими. Таким образом, допуск всегда есть ком­промисс между этими противоположными стремлениями. Чаще всего (но вовсе не обязательно) назначается допуск (P = 0.9973), так как здесь оба требо­вания, как правило, удовлетворяются.

Для нашего примера при P=0,9973 имеем:

;

.

Иначе .

С учетом ошибок вычисления этот же результат будет иметь вид

Таблица 1.3- Зависимость коэффициентов от доверительной

вероятности P

2 Порядок проведения работы

2.1. Получить у преподавателя таблицу многомерного распределения связанных между собой случайных величин и построить гистограмму распределения одной из них.

2.2. Построить экспериментальные графики функции плотности вероятности (полигон).

2.3 Определить суммарную частость нахождения случайной величины в лю­бых двух смежных разрядах гистограммы.

2.4 Определить параметры распределения: среднее арифметическое, эмпи­рическую дисперсию, среднеквадратическое отклонение, меру косости (асимметрию), меру крутости (эксцесс) и оценить ошибки, с которыми они найдены.

2.5 Проверить выборочный ряд распределения на соответствие нормальному закону с помощью критерия Р( ).

2.6 Написать аналитическое выражение для функции плотности вероятности.

2.7 С помощью найденного выражения определить суммарную вероятность нахождения случайной величины в тех же двух смежных разрядах гистограммы, что и в п.2.3. Результаты сравнить.

2.8 Определить верхнее и нижнее значение (поле допуска) случайной величи­ны при заданной доверительной вероятности 0.80;0.90; 0.997.

3 Содержание отчёта

Отчет по лабораторной работе должен содержать ответы на все пункты зада­ния с приведением необходимых графиков, формул, расчетов.

При подготовке к защите лабораторной работы необходимо ознакомиться с контрольными вопросами и продумать результаты работы, обратив особое внима­ние на те пункты, в которых наблюдается расхождение расчета и эксперимента.

4 Контрольные вопросы

4.1. Назовите несколько законов распределения случайных величин. Чем они отличаются, что характеризуют?

4.2. Методы нахождения X и S при больших и малых выборках.

4.3. Для чего нужно строить гистограмму распределения? Какие выводы (или гипотезы) можно сделать по виду гистограммы?

4.4. Что дает знание дифференциального (плотности вероятности) закона рас­пределения?

4.5. Как можно определить вероятность попадания случайной величины в за­данный интервал значений приблизительно? Точно?

4.6. Взаимосвязь допусков на параметры радиоэлементов с характеристиками законов распределения случайных величин.

4.7. Определить поле допуска при заданной доверительной вероятности.

4.8. Какова точность нахождения параметров выборочного распределения? От чего она зависит?

4.9. Что такое центральные моменты, почему так называются, что характери­зуют?

4.11. Что характеризует мера косости (ассиметрия)? В каких пределах он существует?

4.12. Что характеризует мера крутости (эксцесс)? В каких пределах она сществует?

4.13. Как проверить гипотезу о законе распределения выборочного ряда значений случайной величины?

4.14. Как оценить значимость или незначимость расхождений между выборными и выравнивающими частотами?

4.15. Что такое выравнивающие частоты?

4.16. Что можно сделать с помощью Р( ) критерия Пирсона? Какими ограничениями он обладает?

4.17. Что такое число степеней свободы и как он определяется? Какие особенности существуют при нахождении числа степеней свободы величины ?

5 Рекомендуемая литература

5.1. Митропольский А.К. Техника статистических вычислений, изд. 2-е — М.: Наука, 1971.- 576 с. (с. 20-23, 29-32, 44-54, 108-133, 238-242, 337-340).

5.2. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в техн. и науке: Методы обработки данных /Пер, с англ. под ред. Э.К. Лецкого. — М.: Мир, 1980. -610 с. (с. 22-30, 31-42, 99-118, 130-141).

5.3. Долгов Ю.А. Статистическое моделирование : Учебник для вузов.- Тирасполь: РИО ПГУ, 2002.- 280 с. (с. 5-19).