Выборка большого объема и расчет ее параметров


Если объем выборки сравнительно большой (n>30), то пользоваться на практике формулами (1.1) – (1.4) неудобно. В этом случае прибегают к свертке данных, результаты которой могут быть представлены в специальной таблице разрядов и частот или в графическом виде как гистограмма или полигон.

Гистограмма строится в декартовых координатах, где на оси абсцисс откладываются k равных отрезков, изображающих интервалы группировки данных (они же разряды гистограммы), т.е. числовых значений случайной величины X. На этих отрезках, как на основаниях строятся прямоугольники, высота которых соответствует частотам nj попадания числовых значений случайной величины в j-й разряд гистограммы, причем должно соблюдаться равенство

 

clip_image002j = N , (1.6)

где N – объем выборки.

Ломаная линия, соединяющая середины вершин прямоугольников гистограммы, называется полигоном. В пределе при N®? она превращается в теоретическую кривую, которая называется плотностью вероятности (дифференциальным законом распределения).

Так как вид гистограммы, а с ним и точность определения всех параметров выборки, существенным образом зависит от величины разряда (шага гистограммы), то рекомендуется выбирать его из соотношения

C = (XmaxXmin)/k , (1.7)

где k=1+3.32lnN, причем величину k необходимо округлить до ближайшего целого числа. Тогда центры разрядов будут равны

clip_image004j = Xminclip_image006+ (j0.5) C , j =1, 2,…,k. (1.8)

Если величины C и Хmin неудобны для восприятия, то можно величину C увеличить до ближайшего четного числа (но не более чем на половину единицы последнего разряда числовых значений экспериментальных данных), а вместо Хmin в качестве начала гистограммы взять искусственную величину Х’min , которая меньше Хmin, но не более чем на половину величины разряда C.