При проведении научных исследований, контроле качества выпускаемой продукции в процессе ее изготовления, при исследовании экономических тенденций и во многих других случаях невозможно собрать всю информацию, относящуюся к изучаемому явлению. Как правило, исследователь вынужден ограничиться изучением части полной совокупности интересующих его объектов (элементов, явлений). Группа объектов, выбранная для детального исследования, называется выборкой или выборочной совокупностью, а все множество изучаемых объектов — генеральной совокупностью. Одной из основных задач математической статистики является суждение о законе распределения и его параметрах для генеральной совокупности по результатам исследования выборки ограниченного объема.
Все многообразие выборочных методов анализа экспериментальных данных может быть сведено к двум их классам: разведочный и подтверждающий анализы. Целью разведочного анализа является представление экспериментальных данных в возможно более компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Целью подтверждающего анализа является подтверждение или опровержение ранее установленных (или желательных) закономерностей и связей. Поскольку информация об объектах исследования может быть представлена в разнообразном виде – числовом, описательном, качественном и т.п., то методы обработки результатов исследования будут разными. В данной книге мы ограничимся в основном методами обработки числовой информации (как разведочного, так и подтверждающего анализов), когда интересующие нас свойства объектов могут быть выражены в виде чисел (измерены приборами, рассчитаны, непосредственно подсчитаны и т.п.).
Для того, чтобы результаты исследования выборки как можно более точно отражали свойства генеральной совокупности, необходимо эту выборку составить с учётом всех особенностей генеральной совокупности, т.е. сделать выборку репрезентативной (представительной). Для этого она должна быть случайной, т.е. каждый объект генеральной совокупности должен иметь одинаковую вероятность попасть в выборку. Если речь идет о выборе одного объекта из N, то это означает, что вероятность выбора равна 1/N. Однако при этом возникает два принципиально разных варианта получения выборочной совокупности.
Первый из них заключается в том, что объект, взятый в выборку, возвращается в генеральную совокупность и вновь на общих основаниях может быть отобран в выборку. При этом строго соблюдается условие случайного отбора каждого элемента выборки. Такая выборка называется случайной выборкой с возвращением. Чаще всего она получается с помощью таблицы случайных чисел, которые соответствуют номерам объектов генеральной совокупности, если выписывать из этой таблицы все числа подряд не обращая внимания на возможные повторы номеров.
Второй вариант получения выборочной совокупности заключается в том, что объект, взятый в выборку, не возвращается в генеральную совокупность и больше не участвует в отборе. При этом, вообще говоря, нарушается принцип случайности в смысле равной вероятности попадания объекта в выборку, так как с каждым новым выбором вероятность попадания в выборку оставшихся объектов изменяется. Такая выборка называется случайной выборкой без возвращения. Чаще всего она получается с помощью той же таблицы случайных чисел, если выписывать из нее подряд только неповторяющиеся числа, избегая тем самым повторного включения объекта в выборку. Ярким примером случайной выборки без возвращения является игра в русское лото.
Количество элементов выборки называется ее объемом. Если объем выборки составляет незначительную часть большой генеральной совокупности, то разница между случайными выборками с возвращением и без возвращения будет незначительной и ею можно пренебречь. В противном случае способ формирования выборки может играть существенную роль в расчетах ее параметров, и неучет этого обстоятельства может привести к неправильным выводам.
На практике в большинстве задач статистического выборочного исследования мы имеем дело с большими объемами генеральных совокупностей (массовое производство промышленных изделий, сельскохозяйственной продукции, биологические и медицинские исследования и т.п.), а выборки нам желательны возможно меньшего объема, поэтому будем в дальнейшем считать, что они сформированы по правилам случайных выборок с возвращением (а иногда заданы).
Элементы выборки объема n, представленные в виде чисел X1, X2,…,Xn, можно рассматривать как независимые случайные величины, центр распределения которых называется средней арифметической и рассчитывается по формуле:
В качестве меры рассеяния элементов выборки иногда используют размах
R = Xmax — Xmin , (1.2)
который легко вычисляется, но имеет довольно много недостатков с точки зрения теории математической статистики. Поэтому чаще используются более статистически удобная величина эмпирической (выборочной) дисперсии
или, если мера рассеяния должна быть выражена в тех же единицах, что и среднее арифметическое, другая статистически удобная величина – среднеквадратичное отклонение (СКО)
Иногда для статистических расчетов удобнее расположить элементы выборки в порядке возрастания их числовых значении
Такая выборка называется упорядоченной выборкой или вариационным рядом. В этой выборке легко найти, например, медиану, а размах определяется разностью последнего и первого членов ряда.