Эффективная оценка параметров классической линейной регрессионной модели оценка

Оценка результатов линейной регрессии

Введение

Модель линейной регрессии

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов. И аналитическое решение, которое можно получить, применив этот метод, выглядит так:
image loader
где b с крышкой — оценка вектора коэффициентов, y — вектор значений зависимой величины, а X — матрица размера k x n+1 (n — количество предикторов, k — количество наблюдений), у которой первый столбец состоит из единиц, второй — значения первого предиктора, третий — второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:

Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species — количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее — самое интересное — информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:
image loader
при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b — реальный вектор коэффициентов, а эпсилон с крышкой — вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:
image loader
где
image loader— стандартная ошибка оценки коэффициента, а t(k-n-1) — распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F — функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:
image loader
где Yi — реальные значения Y в каждом наблюдении, Yi с крышкой — значения, предсказанные моделью, Y с чертой — среднее по всем реальным значениям Yi.
image loader

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама. Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет — то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:

Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет распределение Фишера c n и k-n-1 степенями свободы:
image loader
Значение F-статистики и p-значение для нее находятся в последней строке вывода функции summary.lm().

Заключение

В этой статье были описаны стандартные методы оценки значимости коэффициентов и некоторые критерии оценки качества построенной линейной модели. К сожалению, я не касался вопроса рассмотрения распределения остатков и проверки его на нормальность, поскольку это увеличило бы статью еще вдвое, хотя это и достаточно важный элемент проверки адекватности модели.
Очень надеюсь что мне удалось немного расширить стандартное представление о линейной регрессии, как об алгоритме который просто оценивает некоторый вид зависимости, и показать, как можно оценить его результаты.

Источник

Оценка параметров линейной регрессии

Линейная регрессия сводится к нахождению уравнения вида:

image035(или image037). (3)
image039

Рис. 2.1. График линии регрессии

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x. На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии (рис. 2.1).

Построение линейной регрессии сводится к оценке ее параметров а и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений image041от теоретических image043минимальна:

image045или image047. (4)

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.

image049

image051(5)

Преобразуем, получаем систему нормальных уравнений:

image053(6)

image055(7)

image057. (8)

Выражение (7) можно записать в другом виде:

image059(9)

где image061ковариация признаков, image063дисперсия фактора x.

Параметр b называется коэффициентом регрессии.Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально a – значение y при x = 0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

image120. (12)

Величина image122характеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели факторов.

2.3. Предпосылки МНК (условия Гаусса-Маркова)

Связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса-Маркова):

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: image124.

2. Дисперсия случайных отклонений постоянна: image126.

3. Случайные отклонения εi и εj являются независимыми друг от друга для image128:

image130

Выполнимость этого условия называется отсутствием автокорреляции.

4. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова: оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, при выполнении условий ГауссаМаркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi.

Именно понимание важности условий ГауссаМаркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

2.4. Оценка существенности параметров линейной
регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза image132о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения image134раскладывается на две части – объясненную и необъясненную:

image136(13)

Необъясненная (остаточная) СКО

или, соответственно:

image137
image138

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и image140.

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Но на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Для общей СКО требуется image142независимых отклонений, т. к. image144что позволяет свободно варьировать image142значений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому image147.

Факторную СКО можно выразить так:

image149

Эта СКО зависит только от одного параметра b, поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и image151

Для определения image153воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

image155(14)

Таким образом, можем записать image157. Из этого баланса определяем, что image159

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений,или дисперсию на одну степень свободы:

image161. (15)

image163. (16)

image165. (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F-критерий для проверки нулевой гипотезы, которая в данном случае записывается как image167

image169(18)

Если image171справедлива, то дисперсии не отличаются друг от друга. Для image171необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Снедекором и различных числах степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

При нахождении табличного значения F-критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная image174

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. image176(α;1; image178). В этом случае image171отклоняется и делается вывод о существенности превышения Dфакт над Dостат., т. е. о существенности статистической связи между y и x.

Если image180, то вероятность image171выше заданного уровня (например: 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, image171не отклоняется.

Величина F-критерия связана с коэффициентом детерминации.

image182, (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

image184, (20)

image186— остаточная дисперсия на одну степень свободы (то же, что и image188).

Величина стандартной ошибки совместно с t-распределением Стьюдента при image178степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t-критерия Стьюдента

image190, (21)

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы image178. Здесь проверяется нулевая гипотеза в виде image192также предполагающая несущественность статистической связи между y и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Но общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если image194(α; image178), то гипотеза image132должна быть отклонена, а статистическая связь y с х считается установленной. В случае image197(α; image178) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

Существует связь между image199и F:

image201

Отсюда следует, что

image203. (22)

Доверительный интервал для b определяется как

image205(23)

где image207– рассчитанное (оцененное) по МНК значение коэффициента регрессии.

Стандартная ошибка параметра image069определяется по формуле:

image210. (24)

Процедура оценивания существенности a не отличается от таковой для параметра b. При этом фактическое значение t-критерия вычисляется по формуле:

image212. (25)

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r|. В этом случае гипотеза об отсутствии корреляционной связи между y и х image214проверяется на основе статистики

image216, (26)

которая при справедливости image171приблизительно распределена по закону Стьюдента с ( image178) степенями свободы. Если image219, то гипотеза image171отвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии image221. Кроме того, image223, поэтому image223. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Но при малых выборках и значениях r, близких к image226, следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое
z-преобразование Фишера:

image228, (27)

image230. (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r.

Для z выдвигается нуль-гипотеза image232, состоящая в том, что корреляция отсутствует. В этом случае значения статистики

image234, (29)

которая распределена по закону Стьюдента с ( image178) степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

2.5. Нелинейные модели регрессии
и их линеаризация

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

image236, (30)

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

image238. (31)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

image240(32)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

image242.

Если image244 image246, то имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При image248 image250парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, неявляющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

image252. (33)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля.

Другим примером зависимости (33) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае image248а результативный признак в (33) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (33) сводится к замене фактора image254, и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z:

image256. (34)

К такому же линейному уравнению сводится полулогарифмическая кривая:

image258, (35)

которая может быть использована для описания кривых Энгеля. Здесь ln(x) заменяется на z и получается уравнение (34).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

image260(36)

image262. (37)

Возможна и такая зависимость:

image264. (38)

В регрессиях типа (36) – (38) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (36) приводится к виду:

image266. (39)

Замена переменной image268сводит его к линейному виду:

image270, (40)

где image272. Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (36) оцениваются по МНК из уравнения (40). Уравнение (37) приводится к виду:

image274, (41)

который отличается от (39) только видом свободного члена, и линейное уравнение выглядит так:

image276, (42)

где image278. Параметры А и b получаются обычным МНК, затем параметр a в зависимости (37) получается как антилогарифм А. При логарифмировании (38) получаем линейную зависимость:

image280, (43)

где image282, а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (38) получается как антилогарифм коэффициента В.

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

image284(44)

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х. Преобразуя (44) путем логарифмирования, получаем линейную регрессию:

image286, (45)

где image288.

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

image290. (46)

Проводя замену image292, получим:

image294. (47)

Наконец, следует отметить зависимость логистического типа:

image296. (48)

Графиком функции (48) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты image298, image300и точку перегиба image302, а также точку пересечения с осью ординат image304

image305

Рис. 2.2. Кривая насыщения

Уравнение (48) приводится к линейному виду заменами переменных image307 image309.

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

image311(49)

Здесь image313— общая дисперсия результативного признака y, image315— остаточная дисперсия, определяемая по уравнению нелинейной регрессии image317.

Следует обратить внимание на то, что разности в соответствующих суммах image319и image321берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. Индекс корреляции (49) можно записать так:

image323(50)

Величина R находится в границах image325и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака.

Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (33). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (50) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (50), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

image327, (51)

Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, image329, для полиномов (30) image331, т. е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а image333– число степеней свободы для остаточной СКО.

Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина image335не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:

image337. (52)

Здесь в знаменателе находится ошибка разности image335, определяемая по формуле:

image340. (53)

Если image342, то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

В заключение в таблице 2.2 приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии.

Вид уравнения регрессии Коэффициент эластичности
image344 image346
image348 image350
image352 image354
image356 image358
image360 image362
image364 image366
image290 image369

Контрольные вопросы

1. В чем состоит суть метода наименьших квадратов?

2. В каком случае остаточная сумма квадратов равна нулю?

3. Объясненная (факторная) сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное…

4. Остаточная сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное…

5. На чем основан классический метод к оцениванию параметров регрессии?

6. Какое уравнение регрессии нельзя свести к линейному виду:

a) image371

b) image373

c) image375

7. Какие значения может принимать коэффициент корреляции image377?

8. Какое из следующих уравнений нелинейно по оцениваемым параметрам:

a) image379

b) image381

c) image383

9. Для функции image385средний коэффициент эластичности имеет вид:

a) image387

b) image389

c) image391

3. ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ
РЕГРЕССИИ

Источник

Справочник по обустройству дома и дачи
Adblock
detector