Суть метода наименьших квадратов (МНК) заключается в том, чтобы по экспериментальным данным подобрать такую теоретическую кривую, у которой
где
— теоретические, а
— экспериментальные значения кривой в точках
. Решая такую систему нормальных уравнений можно получить параметры реального уравнения регрессии.
Подбор теоретической кривой называется сглаживанием. Известны сглаживания с помощью прямой, параболы, экспоненты, показательной функции и т.д. Чтобы принять решение о виде кривой сглаживания, необходимо иметь представление о характере изменения экспериментальных данных. Для этих целей лучше всего подойдет график, построенный по результатам табл.2.1 в координатах ![]()
Достаточно большой класс кривых сглаживаются функциями с двумя параметрами. К ним относятся в первую очередь прямая
а также ряд других функций, которые могут быть сведены к уравнению прямой различными преобразованиями. То же относится и к классу функций с тремя параметрами, простейшей из которых является парабола
, а также ряд других функций, которые могут быть сведены к уравнению параболы различными преобразованиями. В табл.2.2 приведены 19 различных видов моделей, основанных на этом принципе.
Для оценки качества модели рассчитывают её среднеквадратическую ошибку
среднеквадратическую ошибку исходной выборки
а также индекс корреляции с учётом использованных степей свободы
Таблица 2.3
Модели МНК
|
Шифр модели |
Вид модели |
Преобразования |
Системы нормальных уравнений |
|
М1 |
Y = a+bX |
||
|
М2 |
Y = a+bX+cX2 |
||
|
М3 |
Y = a+b?lnX |
lnX=u; Y=a+bu |
|
|
М4 |
Y=a+b?lnX +с(lnX)2 |
lnX=u; Y=a+bu+cu2 |
|
|
М5 |
Y=a+bu |
||
|
М6 |
Y= a+bu+cu2 |
||
|
М7 |
Y = abX |
lnY=z; lna=k1; lnb=k2 z=k1+k2X |
|
|
М8 |
Y = aXb |
lnY=z; lna=k; lnX=u; z=k+bu |
|
|
М9 |
lnY=z; lna=k; |
||
|
М10 |
Y = abXXc |
lnY=z; lna=k1; lnb=k2; lnX=u; z=k1+k2X+cu |
Продолжение табл.2.3.
|
Шифр модели |
Вид модели |
Преобразования |
Системы нормальных уравнений |
|
М11 |
Y = abX(lnX)c |
lnY=z; lna=k1; lnb=k2 ln(lnX)=u; z=k1+k2X+cu |
|
|
М12 |
lnY=z; lna=k1; lnb=k2 lnc=k3; z=k1+k2X+k3X2 |
||
|
М13 |
Y=a+bX+cu |
||
|
М14 |
Y = a+bX+c?lnX |
lnX=u; Y=a+bX+cu |
|
|
М15 |
Y=a+bu+cv |
||
|
М16 |
Y = a+b?lnX +ce-X |
lnX=u; e-x=v; Y=a+bu+cv |
|
|
М17 |
Y = a+bX2+ce-X |
X2=u; e-X=v; Y=a+bu+cv |
|
|
М18 |
Y = a+bX2+c?lnX |
X2=u; lnX=v; Y=a+bu+cv |
|
|
М19 |
где
— экспериментальное и соответствующее ему по модели расчетное значение для величин
;
— среднее арифметическое выборки; N – объем выборки; m – количество параметров модели (коэффициентов a, b, c).
Значение индекса корреляции находятся в диапазоне 0
; если подкоренное выражение в формуле (2.37) принимает отрицательное значение, то испытуемая модель бесполезна. Лучшей признается та модель, для которой выражение (2.37) имеет максимальную, а выражение (2.35) минимальную величину.
Вообще говоря, метод наименьших квадратов, будучи проще метода Чебышева по вычислительной процедуре, обладает по сравнению с ним тремя недостатками: нет твердой гарантии в самом факте корреляции между случайными величинами; для выбора наилучшей модели необходимо найти два десятка вариантов, что резко увеличивает трудоёмкость метода (для ПЭВМ это не помеха); коридор существования модели может быть заужен вследствие работы с усреднёнными данными.
Пример 4. По крайним столбцам табл.2.1
найти наилучшую модель МНК и сравнить её с моделью примера 1.
Р е ш е н и е: Последовательно используя формулы табл. 2.3 найдём соответствующие параметры моделей, их индексы корреляции и СКО. Результаты представлены в табл. 2.4.
Анализ результатов табл.2.3 приводит к выводу, что наилучшей следует признать модель М2
|
|
Рис.2.3. Модели, найденные методом Чебышева (1) и МНК (2).
Таблица 2.4
Модели по данным табл. 2.1.
|
Шифр модели |
Модель |
i |
i’ |
|
|
М1 |
0,9419 |
0,9334 |
2,7848 |
|
|
М2 |
0,9916 |
0,9888 |
1,1578 |
|
|
М3 |
0,8989 |
0,8835 |
3,6336 |
|
|
М4 |
0,8636 |
0,8131 |
4,5164 |
|
|
М5 |
0,8994 |
0,8837 |
3,6093 |
|
|
М6 |
0,9613 |
0,9481 |
2,4678 |
|
|
М7 |
0,9544 |
0,9477 |
2,4771 |
|
|
М8 |
0,9148 |
0,9020 |
3,3499 |
|
|
М9 |
0,3607 |
0,0766 |
7,7353 |
|
|
М10 |
0,9900 |
0,9867 |
1,2632 |
|
|
М11 |
0,9895 |
0,9860 |
1,2945 |
|
|
М12 |
0,9443 |
0,9250 |
2,9480 |
|
|
М13 |
0,9845 |
0,9793 |
1,5710 |
|
|
М14 |
0,9438 |
0,9243 |
2,9613 |
|
|
М15 |
— |
— |
9,4156 |
|
|
М16 |
0,8452 |
0,8173 |
7,2814 |
|
|
М17 |
0,9621 |
0,9433 |
4,1841 |
|
|
М18 |
0,9905 |
0,9873 |
1,2306 |
|
|
М19 |
0,8735 |
0,8539 |
4,0355 |
которая очень похожа на модель, найденную в примере 1 по методу Чебышева. Для наглядности обе модели и экспериментальные точки представлены на рис.2.2
Обе модели практически совпадают, так что пользоваться можно любой из них, однако следует помнить, что:
1) метод Чебышева лучше всего применять при первоначальных исследованиях, а МНК – при повторных, когда определена форма кривой, иначе трудоемкость МНК резко возрастает;
2) метод Чебышева дает, а МНК не дает коридора существования модели (напомним, что модель есть регрессия, т.е. уравнение геометрического места проекций центров условных распределений).
Примечание. Вообще говоря, модели М2, М10, М11, М18 практически неотличимы друг от друга, однако при прочих равных условиях предпочтение следует отдавать простейшей из них.
