- Корреляционно-регрессионный анализ: аналитическое выражение уравнения (прямолинейной, криволинейной) регрессии для однофакторной корреляционно-регрессионной модели
- Б) сумма q1t1 делить на сумму q0t0
- Методика построения однофакторной регрессионной модели корреляционной связи. Анализ качества модели.
- Регрессионный метод анализа взаимосвязи
Корреляционно-регрессионный анализ: аналитическое выражение уравнения (прямолинейной, криволинейной) регрессии для однофакторной корреляционно-регрессионной модели
Применение корреляционно-регрессионного метода анализа явлений начнем с оценки парной корреляции и построения однофакторной модели зависимости результативного признака от факторного в виде уравнения корреляционной связи. Уравнение корреляционной связи часто называют уравнением регрессии, показывающим вид зависимости среднего значения результативного признака от факторного. Аналитическая связь между результативным и факторным признаками может описываться уравнениями:
прямой a0 + a1x ;
гиперболы a0 + a1/x ;
параболы порядка
a0 + a1x +a2x 2 ;
степенной функции и т.д.
Прежде чем приступить к построению модели – уравнения регрессии, необходимо выбрать тип функции, т.е. форму корреляционной связи. Некоторые данные о форме связи можно получить из графика эмпирической линии регрессии. Если на корреляционном поле соединить точки отрезками прямой, то получится ломаная линия с некоторой тенденцией к росту или снижению, которая и называется эмпирической линией регрессии. На рис. 8.2 представлена в качестве примера эмпирическая линия регрессии заработной платы почтовых работников (У) от их производительности труда (Х).
Рис. 8. 2. График корреляционной зависимости заработной платы (y)
и производительности труда (x). Графический способ подбора лучшей формы корреляционной зависимости между (y) и (x) по максимальному значению R².
Изломы эмпирической линии регрессии y обусловлены тем, что на результативный показатель оказывают влияние кроме х другие факторы. Если отвлечься (абстрагироваться) от влияния других факторов, кроме х, то можно сделать вывод о виде аналитической функции yx, в определенной степени отражающей характер зависимости между y и х. В данном случае можно склониться к прямолинейной форме связи. Внешний вид эмпирической линии регрессии позволяет зрительно установить теоретическую форму зависимости y от х.
Главной же в обосновании формы теоретической линии связи должна быть экономическая теория, определяющая сущность и природу изучаемых явлений и, следовательно, взаимосвязь между ними. В примере взаимосвязь между оплатой труда и выработкой в виде прямой линии может быть принята только условно, для каких-то узких целей. В соответствии с экономической теорией воспроизводства, рост производительности труда должен опережать рост зарплаты, т.е. зависимость должна быть криволинейной и иметь вид экспоненты. При таком подходе к выбору зависимости корреляционное уравнение может быть использовано не только для анализа состояния экономической системы, но и для прогнозирования и планирования результатов и факторов производства.
После выбора вида зависимости приступают к расчету параметров аналитического уравнения корреляционной связи (уравнения регрессии). Параметры находят на основе метода наименьших квадратов. Для нахождения параметров уравнения прямой = а0+а1х используется система нормальных уравнений вида:
a0n+a1Sx=Sy,
где n – объем исследуемой совокупности (число единиц наблюдения).
Решение этой системы относительно а0 и а1 позволяет определить параметры уравнения регрессии:
;
.
По уравнению регрессии можно найти выровненные теоретические значения результативного признака при соответствующих значениях фактора х. Отклонения фактических значений (y) от теоретических обусловлены тем, что регрессия (y) строилась только по одному фактору (х), в то время как в действительности (y) зависит от множества факторов.
Выбор теоретической формы корреляционной связи всегда несколько условен, так как в действительности зависимости между признаками лишь приблизительно соответствуют функциональным. Поэтому только при высокой тесноте связи между признаками линия регрессии имеет содержательный смысл и практическое значение.
Показателями тесноты корреляционной связи служат коэффициент и индекс корреляции. Теснота связи между признаками измеряется с помощью показателей вариации результативного признака y.
На рис. 8.3 изображены три линии: y – ломаная, называемая эмпирической линией регрессии, которая отражает фактические значения y при соответствующих значениях факторного признака х; – прямая линия, параллельная оси абсцисс, соответствующая среднему значению y при исключении влияния всех факторов;
– выравненная линия регрессии, характеризующая значения y при абстрагировании всех факторов, кроме фактора х. Поскольку на y помимо х оказывают влияние и другие факторы, то линия y не совпадает с линией
. Это несовпадение свидетельствует о неполной связи между yи х.
Чтобы измерить, насколько связь близка к функциональной, исчисляют показатели тесноты связи. Для этого необходимо оценить вариацию результативного признака y, вызванную только влиянием признака х, и остаточную его вариацию, обусловленную прочими факторами.
Общая дисперсия результативного признака характеризует вариацию y под влиянием всех факторов.
Средний квадрат отклонений от
измеряет вариацию y только под влиянием фактора х – это факторная дисперсия.
Средний квадрат отклонений y от = S(y–
) 2 /n характеризует остаточную вариацию y под влиянием всех остальных факторов. В математической статистике доказано, что s 2 y =
, т.е.
. Поэтому эту дисперсию называют остаточной дисперсией, она характеризует вариацию y за счет остальных факторов, не включенных в уравнение регрессии.
Б) сумма q1t1 делить на сумму q0t0
3. Как формулируется содержание первого свойства сводных индексов?
Б) сводный индекс переменного состава равен произведению индексов постоянного состава и структурных сдвигов
1. Какова формула индивидуального индекса продукции?
А) q1 делить на q0
2. Какова формула сводного индекса денежных затрат на производство продукции?
Б) сумма q1z1 делить на сумму q0z0
3. В чем сущность факторного индексного анализа?
А) определяется влияние факторов-сомножителей на изменение результативного показателя
Взаимосвязи экономических явлений
1. Какая связь между факторным и результативным признаками называется криволинейной?
Б) когда связь между факторным и результативным признаками можно представить в виде уравнения параболы или гиперболы
2. Что означает параметр a1 в однофакторной регрессивной модели а0 + а1x?
Б) характеризует изменение результативного признака при изменении факторного признака на единицу измерения
3. Какой из статистических методов применяется для выявления тенденции зависимости результативного признака от факторного признака?
Б) графический метод
1. Какая связь между факторным и результативным признаками называется обратной?
А) когда с увеличением факторного признака результативный уменьшается
2. Какова методология расчета линейного коэффициента корреляции?
А) XY – XY делить на каких то два нуля с индексами
3. Какая связь между факторным и результативным признаками считается прямолинейной?
В) когда связь между факторным и результативным признаками можно представить в виде уравнения прямой
1. Когда связь между факторным и результативным признаками считается функциональной?
А) когда линейный коэффициент корреляции равен +-1
2. Какова методология расчета коэффициента эластичности?
А) xy-xy делить на какие то 2 нуля с индексами
3. Что характеризует линейный коэффициент корреляции?
Б) тесноту связи между факторным и результативным признаками
1. Какая связь между факторным и результативным признаками называется прямой?
А) когда с увеличением факторного признака результативный увеличивается
2. Какие значения, принимаемые линейным коэффициентом корреляции являются необходимыми и достаточными?
3. Какая связь между факторным и результативным признаками является корреляционной?
В) когда определяется влияние двух и более факторов на результативный признак
1. Какая связь между факторным и результативным признаками является функциональной?
Б) когда такую связь можно формализовать
2. Какова методология расчета корреляционного отношения?
А) под корнем сумма (Yx-Y)2 делить на сумму (y-y)2
3. В чем сущность корреляционного метода анализа?
Б) определение аналитической формы связи между факторным и результативным признаками и установление тесноты связи между ними
Выборочное наблюдение
1. По какой формуле определяется ошибка механической выборки при определении среднего значения признака?
А) под корнем ноль в квадрате деленное на n (1- n деленная на N)
2. По какой формуле определяется ошибка бесповторной случайной выборки при определении доли?
А) под корнем Pq делить на n (1-n деленная на N)
3. По какой формуле определяется необходимая численность выборки при определении доли, если отбор повторный?
Б) t2 Pq делить на треугольник
1. По какой формуле определяется ошибка механической выборки при определении доли?
Б) по корнем W (1-W)…
2. По какой формуле определяется ошибка повторной типической выборки при определении среднего значения признака?
А) под корнем ноль 2 ай делить на n
3. По какой формуле определяется необходимая численность выборки при определении среднего значения признака, если отбор бесповторный?
А) t o N делить на треугольник N+t2o2
1. По какой формуле определяется ошибка повторной случайной выборки при определении доли?
Б) под корнем W(1-W) делить на n
2. По какой формуле определяется ошибка повторной типической выборки при определении доли?
А) Wi(1-Wi) делить на n
3. По какой формуле определяется необходимая численность выборки при определении среднего значения признака, если отбор повторный?
Б) t2o2 делить на треугольник 2x
1. По какой формуле определяется ошибка бесповторной типической выборки при определении среднего значения признака?
А) o2i делить на n(1-n делить на N)
2. По какой формуле определяется ошибка механической выборки при определении среднего значения признака?
Методика построения однофакторной регрессионной модели корреляционной связи. Анализ качества модели.
Поможем написать любую работу на аналогичную тему
Наиболее распространенной в теории статистики является методология так называемой парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у и представляющая собой однофакторный корреляционный и регрессионный анализ. Важнейшим этапом построения модели является установление в анализе исходной информации математической функции.. В основу выявления и установления аналитической формы связи положено применение в анализе исходной информации математических функций. Так при анализе прямолинейной зависимости применяется уравнение однофакторной (парной) линейной корреляционной связи . Коэффициент парной линейной регрессии а1 имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Уравнение связи показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию у, приходящуюся на единицу вариации х. Знак а1 указывает направление этого изменения. Параметры уравнения а0, а1 находят методом наименьших квадратов. В основу метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi от выравненных
: ∑(yi-y)2=∑(yi-a0-a1xi)2— min. Для нахождения минимума данной функции приравниваем к нулю её частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
. Параметры уравнения парной линейной регрессии можно вычислить по следующим формулам:
. Определив значения а0, а1 и подставив их в уравнение связи, получаем значения
, зависящие только от заданного значения х.
При изучении корреляционной связи показателей анализу подвергаются сравнительно небольшие по составу единиц совокупности. При численности объектов анализа до 30 единиц возникает необходимость испытания параметров уравнения регрессии на их типичность. При этом осуществляется проверка, насколько вычисленные параметры характерны для отображаемого комплекса условий. Применительно к совокупностям, у которых п tтабл. В зависимости от того какой получится результат наша гипотеза принимается или отвергается.
Регрессионный метод анализа взаимосвязи
Линию, сглаживающую эмпирическую ломаную линию связи, называют теоретической линией регрессии Y на X или просто линией регрессии. Эта линия отражает теоретическую форму связи признаков X и Y, т.е. закономерность изменения средних значений признака Y в зависимости от изменения фактора X при условии полного взаимопоглощения всех прочих случайных по отношению к фактору X причин. Иначе говоря, теоретическая линия регрессии определяет основную тенденцию взаимосвязи признаков X и Y.
(7.3.1.)
описывающее математически теоретическую линию регрессии, называют уравнением регрессии. В уравнении (7.1.3.) переменная — это средняя величина признака Y, меняющаяся по мере изменения фактора X, а функция f(x) устанавливает аналитический вид однозначной зависимости между вариациями x и
.
Таким образом, уравнение регрессии аппроксимирует (приближению характеризует) корреляционную связь признаков X и Y, представляя ее в форме функциональной зависимости.
Это требование порождает в теории корреляционной связи две главные задачи:
· определить теоретическую форму связи – подыскать такую форму функциональной зависимости (7), которая в наилучшей степени отвечает сущности обнаруженной корреляционной связи признаков;
· измерить тесноту связи – оценить, в какой мере изучаемая корреляционная связь приближается по своей силе к связи изучаемых функциональной.
В однофакторных регрессионных моделях взаимосвязи социально-экономических явлений наиболее часто используются следующие типы математических функций, описывающих теоретическую линию регрессии и характеризующих механизм взаимодействия факторного и результативного признаков:
= a0 + a1
— гиперболическая,
= a0
— степенная,
Коэффициенты уравнений регрессии a0, a1, a2, … называют параметрами связи.
Функциональные зависимости описывают типы кривых, применяемых для сглаживания ломаных эмпирических линий связи, причем операция сглаживания сводится, по существу, к нахождению численных значений параметров ak.
Наиболее простой регрессионной моделью однофакторой корреляционной связи является линейная модель
(7.3.2.)
Разброс фактических значений yi вокруг теоретических значений
, рассчитанных по избранному для моделирования уравнению регрессии, обусловлен влиянием множества случайных факторов. Разности
(7.3.3.)
называемые остаточными величинами (или остатками), оценивают отклонения расчетных значений от фактических значений yi.
Следовательно, при построении регрессионной модели численные значения коэффициентов ak выбранного типового уравнения регрессии (8) необходимо искать так, чтобы обеспечить наименьшие возможные остатки для всех случаев наблюдения (xi, yi).
Для этой цели используется метод наименьших квадратов (МНК), который позволяет рассчитать параметры ak выбранного типового уравнения регрессии таким образом, чтобы теоретическая линия регрессии была бы в среднем наименее удалена от всех точек (xi, yi) по сравнению с любой другой теоретической линией регрессии, отвечающей выбранному типу функции связи (8).
Согласно МНК, задача поиска значений параметров ak, минимизирующих сумму погрешностей (10), имеет вид
min (7.3.4.)
Таким образом, параметры связи ak, в силу их расчета по МНК, являются усредненными по всей совокупности наблюдений (xi, yi). Они отражают взаимосвязь признаков X и Y только в общем итоге, по всей совокупности в целом (для каждой индивидуальной пары (xi, yi) значения ak остаются неизвестными).
При изучении многофакторных корреляционных связей методология их моделирования уравнениями регрессии аналогична рассмотренной. Уравнения многофакторной регрессии имеют вид
и позволяют приближенно оценить меру влияния на результативный признак Y каждого из включенных в модель факторов X при фиксированных (на среднем уровне) значениях остальных факторов, а также оценить влияние на Y различных сочетаний рассматриваемых факторов.
Пример построения однофакторной регрессионной модели связи
Уравнение парной линейной корреляционной связи имеет следующий вид:
,
где — расчетное теоретическое значение результативного признака Y, полученное по уравнению регрессии;
Гипотеза о линейной зависимости между признаками Х и Y выдвигается в том случае, если значения обоих признаков возрастают (или убывают) одинаково, примерно в арифметической прогрессии.
Уравнение парной линейной корреляции показывает среднее изменение результативного признака Y при изменении фактора Х на одну единицу его измерения, т.е. вариацию признака Y, которая приходится на единицу вариации фактора Х. Знак параметра указывает направление этого изменения.
Коэффициенты уравнения а0, а1отыскиваются методом наименьших квадратов (МНК). Как изложено в раздел II – Теоретические основы и методика корреляционно-регрессионного анализа данных (п.3 – Моделирование однофакторных корреляционных связей на основе функциональных зависимостей), в основу МНК положено требование минимальности сумм квадратов отклонений эмпирических значений yi от выровненных . При линейной зависимости критерий минимизации (7.4.1.) принимает вид:
7.4.1.
Для нахождения значений параметров а0, а1, при которых функция двух переменных Sможет достигнуть минимума, приравнивают к нулю частные производные Sпо а0, а1 и тем самым получают систему 2-х уравнений с двумя неизвестными а0, а1:
7.4.2.
Сократив каждое уравнение на –2, раскрыв скобки и перенеся члены с х в одну строку, а с y – в другую, для определения а0, а1 получают систему:
Эта система называется системой нормальных уравнений МНК для линейного уравнения регрессии.
Все суммы, необходимые для конкретизации нормальных уравнений, определяют по эмпирическим данным (xi, yi).
Решая полученную систему, находят искомые параметры а0, а1 – коэффициенты линейного уравнения регрессии.
Расчет коэффициента может быть выполнен по формулам:
; 7.4.3.
. 7.4.4.
Иногда эти коэффициенты удобнее вычислять по формулам:
7.4.5.
7.4.6.
где — среднее из произведения;
— среднее квадратов;
— произведение средних;
— квадрат средних.
Построив линейное уравнение регрессии, следует проанализировать качество синтезированной регрессионной модели, оценить адекватность и практическую пригодность модели, дать ее экономическую интерпретации. Как уже отмечалось, на этапе регрессионного анализа определяется теоретическое выражение связи между признаками (форма связи). Для построения и анализа теоретической линии, определяемой на базе эмпирического материала, необходимо знать параметры уравнения регрессии.
Рассмотрим более подробно определение параметров для линейного уравнения парной регрессии. Рассчитаем эти показатели:
Линейное уравнение парной регрессии имеет вид:
На базе данных таблицы
Вспомогательная таблица для расчета уравнения линейной регрессии
Номер предприятия | Кредитные вложения, млн.руб. | Прибыль банков, млн.руб | | | |
гр4=гр2*гр3 | гр5=гр2*гр2 | 33,739+0,33*х | |||
157,489 | |||||
160,459 | |||||
164,419 | |||||
175,309 | |||||
196,099 | |||||
206,329 | |||||
207,979 | |||||
210,949 | |||||
211,939 | |||||
212,929 | |||||
215,899 | |||||
216,889 | |||||
223,819 | |||||
228,109 | |||||
228,769 | |||||
232,729 | |||||
235,039 | |||||
236,359 | |||||
236,689 | |||||
237,679 | |||||
240,649 | |||||
245,599 | |||||
249,229 | |||||
258,469 | |||||
264,079 | |||||
266,059 | |||||
266,719 | |||||
279,259 | |||||
284,209 | |||||
296,089 | |||||
итого: | 6846,24 |
1. Для построения линейного уравнения регрессии необходимо определить параметры этого уравнения: свободный член уравнения ( ) и коэффициент регрессии (
). С этой целью построим вспомогательную таблицу.
Определим параметры уравнения линейной регрессии, n – количество банков
7.4.5.
7.4.6.
где — среднее из произведения;
— среднее квадратов;
— произведение средних;
— квадрат средних.
В уравнении регрессии параметр |
В нашем случае мы получили уравнение линейной зависимости
33,739+0,33*х
А0 а1
Коэффициент регрессии а1 0,33 показывает, что при увеличении факторного признака Кредитные вложения на 1 млн. руб. значение результативного признака «Прибыль банков» увеличивается в среднем на 0,33 млн руб.
Для построения теоретической линии зависимости рассчитаем этот показатель в таблице 7.4.1.
Теперь графически построим корреляционное поле – затем график с выводом формулы.
Затем ЭКО и ЭКД, см. тему 5.
В Excel- поставить мышь на множество точек корреляционного поля, правой клавишей – добавить Линию тренда, тип, параметры и по индексу детерминации выбрать наиболее адекватную линию регрессии.