Реферат Построение и анализ парной и множественной регрессий
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Федеральное агентство по образованию
Государственное образовательное учреждение
высшего профессионального образования
Контрольно-курсовая работа по курсу
«Эконометрика»
Тула-2009
Содержание
Введение.. 3
1. ПОСТРОЕНИЕ И АНАЛИЗ ПАРНОЙ РЕГРЕСCИИ.. 4
1.1.Исходные данные. 4
1.2.Построение поля корреляции, оценка коэффициента корреляции и выдвижение гипотезы о форме связи 5
1.3. Расчет параметров уравнений регрессии, оценка дисперсий ошибок и дисперсий параметров модели 6
1.4. Оценка силы связи фактора с результатом с помощью коэффициента эластичности, экономическая интерпретация построенных уравнений. 13
1.5. Оценка тесноты связи (по коэффициенту детерминации). 14
1.6. Оценка качества уравнения с помощью средней ошибки аппроксимации. 15
1.7. Оценка статистической надежности уравнений регрессии с помощью F-критерия Фишера. 15
1.8. Проверка значимости коэффициентов модели, построение доверительных интервалов с заданным уровнем значимости. 17
1.9. Расчет прогнозного значения результата. Определение доверительного интервала прогноза. 19
1.10. Выбор лучшего уравнения регрессии. 21
1.11. Проверка гипотезы о несущественности перехода от линейной модели к нелинейной. 21
1.12 Вывод о результатах исследования. 23
2.ПОСТРОЕНИЕ И АНАЛИЗ МНОЖЕСТВЕННОЙ РЕГРЕССИИ.. 25
2.1. Исходные данные. 25
2.2. Построение уравнения множественной регрессии. 26
2.3. Расчет средних коэффициентов эластичности для каждого фактора и сравнительная оценка силы связи каждого фактора с результатом. Экономическая интерпретация построенной модели. 27
2.4. Построение матрицы корреляции, вычисление коэффициента (индекса) множественной корреляции 27
2.5.Рассчет оценок дисперсий ошибок модели и оценок параметров модели. 29
2.6.Построение доверительных интервалов для коэффициентов модели с выбранным уровнем значимости. Проверка значимости каждого коэффициента. 30
2.7. Оценка тесноты связи, скорректированный и нескорректированный коэффициенты детерминации 31
2.8. Оценка статистической надежности уравнения регрессии с помощью F – критерия Фишера. 31
2.9. Прогнозное значение результата для нового набора факторов, доверительный интервал прогноза 32
2.10. Исследование остатков регрессии е. 32
2.11. Модель с фиктивной переменной. 34
ЗАКЛЮЧЕНИЕ.. 37
Список используемой литературы... 38
ПРИЛОЖЕНИЕ.. 39
Введение
Деятельность в любой области экономики требует от специалиста применения современных методов работы, основанных на эконометрических моделях, концепциях и приемах.
Эконометрика - наука, изучающая количественные закономерности и взаимозависимости в экономике методами математической статистики. Цель эконометрики - эмпирический вывод экономических законов. Центральной проблемой эконометрики является построение эконометрической модели и определение возможностей ее использования для описания, анализа и прогнозирования реальных экономических процессов.
Эконометрический анализ служит основой для экономического анализа и прогнозирования, создавая возможность для принятия обоснованных экономических решений.
В данной работе в качестве предмета эконометрического исследования выбрано количество прибывших в страны ЕС на постоянное место жительства.
Актуальность темы исследования определяется ростом социальной значимости миграционных процессов в современном мире, они являются чрезвычайно важным фактором для оценки перспектив развития общества.
Значение экономического исследования миграционных процессов возрастает, выступая одним из существенных факторов повышения эффективности развития стран, их интеграций в мировое сообщество.
Целью работы является закрепление, углубление, обобщение и расширение знаний в области эконометрики, получение практических навыков построения, исследования экономических зависимостей, формулирования экономических выводов.
Задача курсовой работы состоит в практическом использовании знаний и навыков, полученных при изучении курса, к проведению эконометрического анализа данных по миграционному процессу в странах ЕС, полученных из статистического сборника «Россия и страны-члены ЕС».
1. ПОСТРОЕНИЕ И АНАЛИЗ ПАРНОЙ РЕГРЕСCИИ
1.1.Исходные данные
Из статистического ежегодника выбран список из 20 наиболее крупных стран Европейского союза, в том числе и Россия. Все данные берутся за 2005 год.
Сначала необходимо исследовать парную регрессию, т.е. рассмотреть значение двух признаков:
y- число прибывших в страну на постоянное место жительства, тыс. чел;
x- номинальная годовая заработная плата наемных работников, тыс. евро. Исходные данные представлены в таблице 1.
Таблица 1.
Страна | y, тыс. чел | x, тыс. евро |
Россия | 177,2 | 3,048788 |
Бельгия | 87,4 | 35,8 |
Венгрия | 18 | 8,170722 |
Греция | 22,7 | 20,3 |
Кипр | 24,4 | 5,326366 |
Латвия | 1,9 | 4,56564 |
Литва | 6,8 | 4,749932 |
Мальта | 0,2 | 12,186044 |
Нидерланды | 93,6 | 39,1 |
Польша | 9,4 | 6,244416 |
Португалия | 17,2 | 14,6 |
Румыния | 3,7 | 24,788703 |
Словакия | 5,3 | 5,818662 |
Словения | 15,3 | 13,967365 |
Великобритания | 521,3 | 43,967814 |
Финляндия | 21,4 | 32,3 |
Франция | 62,3 | 33,5 |
Чешская Респ | 60,3 | 6,931717 |
Швеция | 65,2 | 33,551824 |
Эстония | 2,5 | 6,353648 |
Таким образом, в результате анализа необходимо установить насколько заработная плата наемных рабочих в стране влияет на количество людей, прибывших в страну на постоянное место жительство.
Для решения задачи используется Microsoft Excel, включая статистический пакет анализа данных в Microsoft Excel.
1.2.Построение поля корреляции, оценка коэффициента корреляции и выдвижение гипотезы о форме связи
Графический метод подбора уравнения регрессии является наиболее наглядным. Построим поле корреляции (рис. 1).
Рис 1. Поле корреляции
Рассчитаем коэффициент корреляции по формуле:
, где
Данные расчета приведены в приложении 1.
Коэффициент корреляции показывает тесноту связи изучаемых явлений. Он имеет положительное значение и равен , что свидетельствует об умеренной прямой зависимости между результирующим показателем y и фактором x, т.е. с увеличением среднегодовой з/п работников страны, количество прибывшего в страну населения увеличивается.
Основываясь на построенном поле корреляции, невозможно выделить ясную зависимость между показателем Y и фактором Х. Для построения уравнения парной регрессии рассмотрим возможные уравнения регрессии:
1) линейную зависимость
2) показательную зависимость
3) квадратичную зависимость
4) кубическую зависимость
Показательная модель является нелинейной по оцениваемым параметрам, а квадратичная и кубическая являются моделями, нелинейными по объясняющим переменным.
Выбор данных моделей обусловлен тем, что линия тренда соответствующая данным уравнениям наиболее близко проходит к исходным данным. Кроме того, для оценки параметров регрессий ко всем этим моделям применим метод наименьших квадратов (МНК).
Идея метода состоит в получении наилучшего приближения (аппроксимации) набора наблюдений xi, yi, i = 1,…,n линейной функцией в смысле минимизации функционала:
1.3. Расчет параметров уравнений регрессии, оценка дисперсий ошибок и дисперсий параметров модели
Линейная зависимость.
Для расчета параметров a и b линейной регрессии решаем систему уравнений относительно a и b.
из которой можно определить оценки параметров a и b.
;
Таким образом, уравнение регрессии принимает вид:
Коэффициент регрессии b
=4,279 показывает среднее изменение результата с изменением фактора на одну единицу. Это означает, что с увеличением годовой з/п наемных рабочих на 1 тыс.евро. количество прибывших на постоянное место жительства увеличится в среднем на 4,279 тыс. чел. Положительное значение коэффициента регрессии показывает прямое направление связи.
Линейный коэффициент парной корреляции равен:
= 0,504652547
Связь прямая и умеренная. Проверим данный коэффициент на значимость, воспользовавшись t–критерием Стьюдента.
Выдвигается гипотеза H0 о случайной природе показателя, т.е. незначимом его отличии от нуля. H0: =0
=2.47
Tтабл(0,05;18) = 2,101
Т.к. ||> Tтабл, то гипотеза H0 отвергается, т.е. коэффициент значим.
График линейного уравнения регрессии представлен на рис. 2.
Рис. 2 График линейного уравнения регрессии
Расчет оценок дисперсий ошибок и дисперсий параметров модели осуществляется по следующим формулам:
Промежуточные расчеты представлены в приложении 1. В результате получены следующие значения:
= 10765,218
= 1477,566815
= 2,976774696
Показательная зависимость.
Построению уравнения показательной кривой предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:
Параметры уравнения модели находятся по следующим формулам:
Значения параметров регрессии составили
= 0,068027
= 1,68049
Получено линейное уравнение:
.
После потенцирования:
Подставляя в данное уравнение фактические значения х, получаем теоретические результаты значения . По ним рассчитаем показатель тесноты связи – индекс корреляции.
,
Проверим данный коэффициент на значимость, воспользовавшись t–критерием Стьюдента.
Выдвигается гипотеза H0 о случайной природе показателя, т.е. незначимом его отличии от нуля. H0: =0
=2.15
Tтабл(0,05;18) = 2,101
Т.к. ||> Tтабл, то гипотеза H0 отвергается, т.е. коэффициент значим.
График показательного уравнения регрессии представлен на рис. 3.
Рис 3. График показательного уравнения регрессии
Расчет оценок дисперсий ошибок и дисперсий параметров модели осуществляется по следующим формулам:
Промежуточные расчеты представлены в приложении 2. В результате получены следующие значения:
= 11483,75
= 452,87517
= 3,1754617
Квадратичная зависимость.
Построим уравнение квадратичной кривой , произведя замену
Получим линейное уравнение
Параметры уравнения модели находятся по следующим формулам:
Таким образом, уравнение регрессии принимает вид:
Подставляя в данное уравнение фактические значения х, получаем теоретические результаты значения . По ним рассчитаем показатель тесноты связи – индекс корреляции.
,
Проверим данный коэффициент на значимость, воспользовавшись t–критерием Стьюдента.
Выдвигается гипотеза H0 о случайной природе показателя, т.е. незначимом его отличии от нуля. H0: =0
=3,41
Tтабл(0,05;18) = 2,101
Т.к. ||> Tтабл, то гипотеза H0 отвергается, т.е. коэффициент значим.
График показательного уравнения регрессии представлен на рис. 4.
Рис 4. График уравнения регрессии для квадратичной зависимости
Расчет оценок дисперсий ошибок и дисперсий параметров модели осуществляется по следующим формулам:
Промежуточные расчеты представлены в приложении 3. В результате получены следующие значения:
= 8760,35808
= 743,283328
= 0,00123901
Кубическая зависимость.
Построим уравнение кубической кривой , произведя замену
Получим линейное уравнение
Параметры уравнения модели находятся по следующим формулам:
Таким образом, уравнение регрессии принимает вид:
Подставляя в данное уравнение фактические значения х, получаем теоретические результаты значения . По ним рассчитаем показатель тесноты связи – индекс корреляции.
,
Проверим данный коэффициент на значимость, воспользовавшись t–критерием Стьюдента.
Выдвигается гипотеза H0 о случайной природе показателя, т.е. незначимом его отличии от нуля. H0: =0
=4,38
Tтабл(0,05;18) = 2,101
Т.к. ||> Tтабл, то гипотеза H0 отвергается, т.е. коэффициент значим.
График показательного уравнения регрессии представлен на рис. 5.
Рис 5. График уравнения регрессии для квадратичной зависимости
Расчет оценок дисперсий ошибок и дисперсий параметров модели осуществляется по следующим формулам:
Промежуточные расчеты представлены в приложении 4. В результате получены следующие значения:
= 6978,45007
= 514,7649432
= 5,9851E-07
Вывод: самая высокая степень связи переменных в модели с кубической зависимостью, т.к. коэффициент корреляции в кубической модели наиболее близок к единице, а самая низкая - в показательной модели. Дисперсии ошибок и параметров модели принимают минимальные значения в кубической зависимости.
1.4. Оценка силы связи фактора с результатом с помощью коэффициента эластичности, экономическая интерпретация построенных уравнений
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора х на 1% от своего среднего значения:
Линейная зависимость
Т.е. с ростом годовой з/п наемных рабочих на 1% число прибывших в страну на постоянное место жительства увеличивается на 1,250028395%.
Показательная зависимость
1,2083965
Т.е. с ростом годовой з/п наемных рабочих на 1% число прибывших в страну на постоянное место жительства увеличивается на 1,2083965
Квадратичная зависимость
Т.е. с ростом годовой з/п наемных рабочих на 1% число прибывших в страну на постоянное место жительства увеличивается на 1,24843054
Кубическая зависимость
0,938829224
Т.е. с ростом годовой з/п наемных рабочих на 1% число прибывших в страну на постоянное место жительства увеличивается на 0,938829224
Значения коэффициентов эластичности приведены в приложении 5.
Вывод: Таким образом, все построенные модели подтверждают, что величина заработной платы наемных рабочих является фактором увеличения числа прибывших в страну на постоянное место жительства. Коэффициент эластичности, как показатель силы связи, показывает, что годовая заработная плата наемных рабочих в больше степени влияет на число прибывших в страну на постоянное место жительства при линейной и квадратичной зависимостях. В меньшей степени данная связь прослеживается в кубической зависимости.
1.5. Оценка тесноты связи (по коэффициенту детерминации)
Коэффициент детерминации дает оценку качества построенной модели. Коэффициент детерминации характеризует долю дисперсии результирующего признака у, объясняемую регрессией, в общей дисперсии результативного признака.
Коэффициент детерминации равен квадрату индекса корреляции. Чем ближе к единице , тем лучше качество подгонки, т.е. более точно аппроксимирует у.
Линейная зависимость
Таким образом, уравнением регрессии объясняется 25% дисперсии результативного признака, а на долю остальных факторов приходится 75% ее дисперсии (т.е. остаточная дисперсия).
Модель линейной зависимости плохо аппроксимирует исходные данные.
Показательная зависимость
=
Зависимость между показателями такая же слабая, как и в линейной модели. Вариация у всего на 20% объясняется вариацией х, а на долю остальных факторов приходится 80%. Связь в данной модели самая слабая. Поэтому качество модели неудовлетворительное.
Квадратичная зависимость
Зависимость между показателями немного лучше, чем в показательной и линейной моделях. Вариация у только на 40% объясняется вариацией х. Но данную модель также не желательно использовать для прогнозирования.
Кубическая зависимость
Зависимость между показателями лучше, чем в предыдущих моделях. Вариация у на 52% объясняется вариацией х.
Значения коэффициентов детерминации представлены в приложении 5.
Вывод: качество построенных моделей низкое, самая высокая оценка качества у модели с кубической зависимостью. Доля объясненной вариации составила 52%, т.е. данная модель регрессии является лучшей с точки зрения аппроксимации данных.
1.6. Оценка качества уравнения с помощью средней ошибки аппроксимации
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:
Допустимый предел значений - не более 8-10%.
Линейная модель
=1153,261%
В среднем расчетные значения отклоняются от фактических на 1153,261%, что говорит об очень большой ошибке аппроксимации.
Показательная зависимость
=396,93259
Ошибка аппроксимации несколько ниже, чем у остальных моделей, но также является недопустимой.
Квадратичная зависимость
=656,415018
Так же наблюдается высокая ошибка аппроксимации, что свидетельствует о низком качестве подгонки уравнения
Кубическая зависимость
=409,3804652
Ошибка аппроксимация также значительно превышает допустимые значения.
Подробные вычисления представлены в приложениях 1-4.
Вывод: во всех рассмотренных моделях средняя ошибка аппроксимации значительно превышает допустимые значения, качество подгонки моделей к исходным данным очень низкое.
1.7. Оценка статистической надежности уравнений регрессии с помощью F-критерия Фишера
Оценка значимости уравнения регрессии осуществляется с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза о равенстве фактической и остаточной дисперсий, и следовательно, фактор x не оказывает влияния на y, т.е.
H0: Dфакт=Dост
Для этого выполняется сравнение фактического и критического (табличного) значений F-критерия Фишера. определяется из соотношения значений факторной и остаточной дисперсий:
- максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости . Уровень значимости - вероятность отвергнуть правильную гипотезу при условии, что она верна.
Если <, то отклоняется и признается статистическая значимость и надежность уравнения регрессии, иначе - принимается и делается вывод о незначимости уравнения регрессии.
= F (0.05,m-1,n-m)= F(0.05,1,18)= 4,413873, где
n-число единиц совокупности;
m-число параметров при переменных х.
Линейная модель
=6,150512218
Показательная зависимость
=4,6394274
Квадратичная зависимость
=11,6775003
Кубическая зависимость
=19,25548322
Во всех рассмотренных моделях <, т.е. гипотеза отвергается.
Вывод: все полученные уравнения регрессии значимы. По результатам F-теста, а также рассмотренным выше показателям коэффициента детерминации и средней ошибки аппроксимации можно сделать вывод что среди рассмотренных моделей нет модели с хорошим качеством, которую можно было бы применять с целью прогнозирования. Однако, наилучшей моделью, описывающей взаимосвязь между годовой з/п наемных рабочих страны и числом прибывших в страну на постоянное место жительства, является модель с кубической зависимостью , поскольку она является значимой, коэффициент детерминации принимает наибольшее значение и средняя ошибка аппроксимации не так велика по сравнению с другими моделями, хотя и не принимает допустимого значения.
1.8. Проверка значимости коэффициентов модели, построение доверительных интервалов с заданным уровнем значимости
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка:
;
Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента при (n-2) степенях свободы. Данная статистика применяется для проверки значимости коэффициента регрессии и для расчета его доверительных интервалов. Выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля.
: a=0;
: b=0;
Сравнивая фактическое и табличное значение t – статистики, принимаем или отвергаем гипотезу .
Если |tфакт|>tтабл, то отклоняется, т.е. a и b не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x, иначе принимается.
Формулы для расчета доверительных интервалов имеют следующий вид:
,
.
(0.05;18)= 2,100922
Линейная модель
Так как |tа|< tтабл, то гипотеза H0 принимается, параметр а статистически незначим.
Так как tтабл <|tb|, то параметр b статистически значим, гипотеза H0 отвергается.
Доверительный интервал для a и b соответственно примет вид:
a(-95,96059459; 65,55464)
b(0,654074835; 7,903656)
Т.е. с вероятностью 0,95 параметр a и параметр b, находясь в указанных границах. Параметр a принимает нулевые значения, т. е. является статистически незначимыми. Параметр b значим.
Показательная зависимость
Так как tа < tтабл, то гипотеза H0 принимается, параметр а статистически незначим.
Так как tb< tтабл, то параметр b статистически незначим, гипотеза принимается.
Доверительный интервал для a и b соответственно примет вид:
a(-39,34125; 50,07762)
b(-2,673413;4,8142)
Т.е. с вероятностью 0,95 параметр a и параметр b, находясь в указанных границах. Параметр a и b принимают нулевые значения, т. е. являются статистически незначимыми.
Квадратичная зависимость
Так как tа < tтабл, то гипотеза H0 принимается, параметр а статистически незначим.
Так как tтабл <tb, то параметр b статистически значим, гипотеза отвергается.
Доверительный интервал для a и b соответственно примет вид:
a(-56,178325; 58,37749)
b(0,04633371; 0,194237)
Т.е. с вероятностью 0,95 параметр a и параметр b, находясь в указанных границах. Параметр a принимает нулевые значения, т. е. является статистически незначимыми. Параметр b значим.
Кубическая зависимость
Так как tа < tтабл, то гипотеза H0 принимается, параметр а статистически незначим.
Так как tтабл <tb, то параметр b статистически значим, гипотеза отвергается.
Доверительный интервал для a и b соответственно примет вид:
a(-43,3715931; 51,96166)
b(0,001769445; 0,00502)
Т.е. с вероятностью 0,95 параметр a и параметр b, находясь в указанных границах. Параметр a принимает нулевые значения, т. е. является статистически незначимыми. Параметр b значим.
Более подробные данные о полученных результатах приведены в приложении 6.
Вывод: во всех рассмотренных моделях параметр a является статистически незначимым. Для показательной зависимости не значимыми являются оба параметра.
1.9. Расчет прогнозного значения результата. Определение доверительного интервала прогноза
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего прогнозного значения .
Кроме того, необходимо вычислить стандартную ошибку прогноза
,
.
Так же для наиболее точной оценки прогноза строится доверительный интервал:
.
=t(0.05,18)= 2,100922
Прогнозное значение фактора увеличилось на 10% от его среднего уровня: =19,5399402
Линейная модель
Прогнозное значение числа прибывших в страну на постоянное место жительства при годовой з/п наемных рабочих равной 19,5399402 составит:
= 68,40579766
Ошибка прогноза составит:
= 106,3619856
Доверительный интервал прогноза:
( -155,0524418; 291,864)
Показательная зависимость
Прогнозное значение числа прибывших в страну на постоянное место жительства при годовой з/п наемных рабочих равной 19,54 составит:
= 20,28185
Ошибка прогноза составит:
= 109,85426
Доверительный интервал прогноза:
( -210,5134; 251,0771)
Квадратичная зависимость
Прогнозное значение числа прибывших в страну на постоянное место жительства при годовой з/п наемных рабочих равной 19,54 составит:
= 47,0256261
Ошибка прогноза составит:
= 95,9928932
Доверительный интервал прогноза:
( -154,64796; 248,6992)
Кубическая зависимость
Прогнозное значение числа прибывших в страну на постоянное место жительства при годовой з/п наемных рабочих равной 19,54 составит:
= 29,62197186
Ошибка прогноза составит:
= 85,89453709
Доверительный интервал прогноза:
( -150,835754; 210,0797)
Вывод: более точный из всех прогнозов дает модель с кубической зависимостью, так как данная модель имеет наименьшую стандартную ошибку прогноза и диапазон верхней и нижней границ доверительного интервала меньше, чем у других моделей. Однако даже в этой модели значения стандартной ошибки прогноза, а также диапазон верхней и нижней границы интервала принимают очень большие значения, включают нулевые и отрицательные значения, что не дает возможности сделать достоверный прогноз.
1.10. Выбор лучшего уравнения регрессии
В результате исследования было выяснено, что все четыре модели парной регрессии являются статистически значимыми, однако достаточно малые значения коэффициента детерминации, большие ошибки средней аппроксимации свидетельствуют о плохом качестве данных моделей.
Тем не менее, сравнив параметры и характеристики данных уравнений, приходим к выводу, что наибольшей надежность и точностью обладает модель с кубической зависимостью:
Об этом свидетельствуют наибольшее значение индекса корреляции и соответственно коэффициент детерминации, наиболее близкий к 1 и подтверждающий лучшее качество модели с точки зрения аппроксимации данных, результаты F-теста, признавшие модель значимой, а также средняя ошибка аппроксимации, меньшая, чем у других моделей. Стандартные ошибки параметров регрессии и стандартная ошибка прогноза для этой модели также принимают меньшие значения.
1.11. Проверка гипотезы о несущественности перехода от линейной модели к нелинейной
Для обоснования использования нелинейных функций необходимо провести сравнение индексов детерминации для нелинейной модели и коэффициента детерминации линейной модели с одним и тем же набором факторов.
Практически установлено, что если разность |-| < 0,1, то можно использовать линейную функцию, в противном случае проводится оценка существенности различия по критерию Стьюдента.
Для этого выдвигается нулевая гипотеза:
H0: =,
H1: ≠,
Используется следующая статистика:
,
Где
Если |tрасч| < tтаб, принимается гипотеза H0, и различия между моделями незначительны.
Если |tрасч| > tтаб, принимается гипотеза H1, различия между моделями значительны.
Показательная зависимость
|-| = 0,2049269- 0,254674193= -0,04974731
|-| < 0,1
Значит, можно использовать линейную функцию, переход к показательной функции нецелесообразен.
Квадратичная зависимость
|-| = 0,39347992- 0,254674193= 0,138805722
|-| > 0,1
Выдвигаем нулевую гипотеза:
H0: =,
H1: ≠,
= 0,022551934
0,150173013
=0,92430537
Так как |tрасч| < tтаб, значит различия между моделями незначительны, переход к нелинейной модели нецелесообразен.
Кубическая зависимость
|-| = 0,516849643- 0,254674193= 0,262175
|-| > 0,1
Выдвигаем нулевую гипотеза:
H0: =,
H1: ≠,
= 0,035546991
0,188539096
=1,390562784
Так как |tрасч| < tтаб, значит различия между моделями незначительны, переход к нелинейной модели нецелесообразен.
Вывод: для всех рассмотренных уравнений нелинейной регрессии переход от линейной функции к нелинейной не целесообразен.
1.12 Вывод о результатах исследования
В результате эконометрического исследования и анализа данных было рассмотрено 4 уравнения парной регрессии, устанавливающих зависимость между среднегодовой заработной платой наемных рабочих в стране и количеством людей, прибывших в страну на постоянное место жительство. Это линейная модель, показательная, модели с квадратичной и кубической зависимостью. В итоге были сделаны следующие выводы.
Все построенные модели подтверждают, что рост величины заработной платы наемных рабочих является фактором увеличения числа прибывших в страну на постоянное место жительства.
Самый высокий показатель тесноты связи переменных в модели с кубической зависимостью, т.к. коэффициент детерминации в кубической модели принимает наибольшее значение , что говорит о наибольшей надежности найденного уравнения регрессии. Т.е модель в виде кубической зависимости наилучшим образом описывает взаимосвязь числа прибывших в страну на постоянное место жительства и годовой заработной платы наемных рабочих.
Во всех рассмотренных моделях средняя ошибка аппроксимации значительно превышает допустимые значения, что говорит о низком качестве подгонки моделей. Однако модель с кубической зависимостью является лучшей с точки зрения аппроксимации данных и оценки тесноты связи, поскольку имеет наибольшую по сравнению с другими моделями долю объясненной вариации – 52% (коэффициент детерминации наиболее близок к 1).
Все полученные уравнения регрессии статистически значимы. Параметр а статистически незначим для всех построенных моделей, параметр b значим для всех, кроме показательной зависимости.
Более точный из всех прогнозов дает модель с кубической зависимостью, так как данная модель имеет наименьшую стандартную ошибку прогноза и диапазон верхней и нижней границ доверительного интервала меньше, чем у других моделей.
Таким образом, по всем рассмотренным параметрам уравнение регрессии с кубической зависимостью является лучшим из рассмотренных, но не оптимальным для практического использования и прогнозирования. Данный факт можно объяснить глобальностью исследования, большим разбросом данных, а также тем, что число иммигрантов зависит от множества факторов, которые невозможно учесть в парной регрессии.
Кроме того, не достаточно хорошие характеристики модели могут быть вызваны наличием в исходных данных единиц с аномальными значениями исследуемых признаков: в Великобритании число прибывших на постоянное место жительства значительно превышает данный показатель для других стран. Возможно для получения более точного и надежного результата данную страну следует исключить из выборки.
2.ПОСТРОЕНИЕ И АНАЛИЗ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
2.1. Исходные данные
Введем в модель еще несколько показателей, позволяющих учитывать несколько факторов, влияющих на число прибывших в страну на постоянное место жительства. А именно такие факторы как число безработных и ВВП, страны. Получим следующий набор факторов, влияющий на показатель y- число прибывших в страну на постоянное место жительства, тыс. чел:
x1- номинальная годовая заработная плата наемных работников, тыс. евро.
x2- число безработных, тыс. чел.
x3- ВВП, млрд. евро
Исходные данные для построения множественной регрессии приведены в таблице 2.
Таблица 2.
Страна | y, тыс. чел | x1, тыс. евро | x2, тыс. чел | x3, млрд. евро |
Россия | 177,2 | 3,048788 | 5263 | 616,6053 |
Бельгия | 87,4 | 35,8 | 402 | 298 |
Венгрия | 18 | 8,170722 | 304 | 86,98998 |
Греция | 22,7 | 20,3 | 467 | 181,1 |
Кипр | 24,4 | 5,326366 | 19,5 | 3,060673 |
Латвия | 1,9 | 4,56564 | 99 | 13,54473 |
Литва | 6,8 | 4,749932 | 133 | 20,59269 |
Мальта | 0,2 | 12,186044 | 11,7 | 4,452593 |
Нидерланды | 93,6 | 39,1 | 430 | 501,9 |
Польша | 9,4 | 6,244416 | 3045 | 206,572 |
Португалия | 17,2 | 14,6 | 422 | 174,4 |
Румыния | 3,7 | 24,788703 | 705 | 68,4577 |
Словакия | 5,3 | 5,818662 | 428 | 36,69945 |
Словения | 15,3 | 13,967365 | 58 | 27,47676 |
Великобритания | 521,3 | 43,967814 | 1352 | 1806,959 |
Финляндия | 21,4 | 32,3 | 220 | 155,3 |
Франция | 62,3 | 33,5 | 2834 | 1710 |
Чешская Респ | 60,3 | 6,931717 | 410 | 91,06928 |
Швеция | 65,2 | 33,551824 | 270 | 183,6787 |
Эстония | 2,5 | 6,353648 | 52 | 10,54041 |
Все данные также получены из статистического ежегодника «Россия и страны-члены ЕС» за 2005 год.
2.2. Построение уравнения множественной регрессии
Множественная регрессия – уравнение связи с несколькими неизвестными переменными:
,
где y
– зависимая переменная (результативный признак),
- независимые переменные (факторы).
Для построения уравнения множественной регрессии используем линейную функцию, записанную в матричной форме:
,
где , , ,
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов:
.
Строится следующая система уравнений, решение которых позволяет получить оценки параметров регрессии:
.
Ее решение в явном виде обычно записывается в матричной форме, иначе оно становится слишком громоздким.
Оценки параметров модели в матричной форме определяются выражением:
,
X – матрица значений объясняющих переменных;
Y – вектор значений зависимой переменной.
Для выявления зависимости числа прибывших на постоянное место жительства от номинальной годовой з/п наемных рабочих, числа безработных и уровня ВВП построим уравнение множественной регрессии в виде:
Получили следующие оценки параметров уравнения регрессии:
Тогда уравнение множественной регрессии имеет вид:
Расчет параметров данного уравнения представлен в приложении 7.
2.3. Расчет средних коэффициентов эластичности для каждого фактора и сравнительная оценка силы связи каждого фактора с результатом. Экономическая интерпретация построенной модели.
Для характеристики относительной силы влияния факторов на y рассчитаем средние коэффициенты эластичности. Средние коэффициенты эластичности для линейной регрессии рассчитываются по формулам:
.
= 0,12026241
= -0,06319176
= 0,86930458
Расчет данных значений приведен в приложении 8.
С увеличением величины годовой заработной платы наемных рабочих на 1% от среднего уровня при неизменных показателях остальных факторов, число прибывших на постоянное место жительства увеличивается на 0,12%.
С увеличением численности безработных на 1% от среднего при неизменных показателях остальных факторов, число прибывших на постоянное место жительства уменьшается на 0,06%
С увеличением величины ВВП на 1% от среднего при неизменных показателях остальных факторов, число прибывших на постоянное место жительства увеличивается на 0,87%
Вывод: изменение числа прибывших в страну на постоянное место жительства находится в прямой зависимости от годовой заработной платы наемных рабочих и величины уровня ВВП страны и в обратной зависимости от численности безработных, что не противоречит и логическим предположениям. Коэффициенты эластичности, как показатели силы связи, показывают, что наибольшее изменение числа прибывших в страну вызывает величина ВВП, а наименьшее – численность безработных.
2.4. Построение матрицы корреляции, вычисление коэффициента (индекса) множественной корреляции
При линейной зависимости коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции:
где - определитель матрицы парных коэффициентов корреляции;
- определитель матрицы межфакторной корреляции.
С помощью пакета «Анализ данных» в Microsoft Excel построены следующие матрицы:
Матрица парных коэффициентов корреляции:
Матрица межфакторной корреляции:
Их определители равны:
Рассчитаем коэффициент множественной корреляции:
Значение индекса множественной корреляции лежит в пределах от 0 до 1.
Рассчитаем среднюю ошибку аппроксимации по формуле:
= 372,353247%
Значение средней ошибки аппроксимации свидетельствует о плохой подгонке модели под исходные данные, т.к. оно значительно превышает допустимые границы.
Вывод: Совместное влияние всех факторов на число прибывших в страну на постоянное место жительства достаточно велико. Связь между рассматриваемым показателем и влияющими на него факторами усилилась по сравнению с парной регрессией (ryx=0.506). Наблюдается довольно сильная связь.
Необходимо учитывать, что в модели наблюдается небольшая мультиколлинеарность, что может свидетельствовать о ее неустойчивости, поскольку определитель матрицы межфакторной корреляции достаточно далек от 1. Максимальный коэффициент парной корреляции наблюдается между факторами x1 и x3 (rx1x3=0.595), что вполне объясняемо, т.к. среднегодовая заработная плата в стране должна находиться в прямой зависимости от ВВП страны.
2.5.Рассчет оценок дисперсий ошибок модели и оценок параметров модели
Расчет оценок дисперсий ошибок и дисперсий параметров модели осуществляется по следующим формулам:
где n = 20 – количество наблюдений, а m=4 – количество параметров.
Для построенной модели оценка дисперсии ошибок составила:
=6674,02207
Оценки дисперсий параметров модели:
Следовательно, стандартные ошибки параметров модели:
Промежуточные расчеты полученных данных представлены в приложении 8.
2.6.Построение доверительных интервалов для коэффициентов модели с выбранным уровнем значимости. Проверка значимости каждого коэффициента
Для оценки статистической значимости коэффициентов регрессии рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из параметров. Выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля. Получим набор гипотез:
: b
0
=0;
b
1
=0;
b
2
=0;
b
3
=0
Оценка значимости коэффициентов регрессии с помощью t-критерия Стьюдента проводится путем сопоставления их значений с табличным значением , вычисляемым как квантиль распределения Стьюдента, где уровень значимости - вероятность отвергнуть правильную гипотезу при условии, что она верна.
,
,
Значения , , <, значит коэффициенты являются статистически незначимыми и случайно отличаются от 0.
>, значит является статистически значимым
Для расчета доверительных интервалов пользуются следующей формулой:
.
Для построенной модели доверительные интервалы коэффициентов регрессии:
Вывод: все полученные коэффициенты регрессии, кроме , статистически незначимы, доверительные интервал для них достаточно большой, что может свидетельствовать о недостаточном качестве модели.
2.7. Оценка тесноты связи, скорректированный и нескорректированный коэффициенты детерминации
Качество построенной модели в целом оценивает коэффициент детерминации. Коэффициент множественной детерминации рассчитывается, как квадрат индекса множественной корреляции: .
Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается по формуле:
где n
– число наблюдений;
m
– число факторов.
Для построенной модели
Вывод: Данный коэффициент детерминации показывает, что качество модели удовлетворительное.
С добавлением еще одной переменной обычно увеличивается. Для того чтобы не допускать возможного преувеличения тесноты связи и применяется скорректированный коэффициент детерминации. При заданном объеме наблюдений при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный коэффициент множественной детерминации убывает. Для построенной модели значения скорректированного и нескорректированного коэффициента детерминации не значительно отличаются друг от друга, но т.к. скорректированный коэффициент детерминации немного уменьшился можно предположить, что увеличение доли объясненной регрессии при добавлении новой переменной незначительно, и что добавлять переменную нецелесообразно.
2.8. Оценка статистической надежности уравнения регрессии с помощью F – критерия Фишера.
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:
При этом выдвигается гипотеза о незначимости уравнения регрессии:
Так как Fтабл< Fфакт то не принимается
Вывод: уравнение множественной регрессии значимо, т.е. отвергается гипотеза о случайной природе оцениваемых характеристик. Полученная модель статистически надежна.
2.9. Прогнозное значение результата для нового набора факторов, доверительный интервал прогноза
Рассмотрим прогнозное значение набора факторов, увеличившееся на 10% от своего среднего уровня:
=(1;19;930;340)
.
Доверительный интервал прогноза: ,
где дисперсия ошибки прогноза:,
, тогда
Вывод: в доверительный интервал прогноза входит ноль, значит прогноз недостоверный, и его использование не целесообразно.
2.10. Исследование остатков регрессии е.
Для исследования остатков построим графики зависимости остатков от величин
На основании графиков можно сделать вывод о том, что остатки неравномерно разбросаны по осям y^ и факторов x2 и x3, т.е. остатки не имеют постоянной дисперсии. Это говорит о том, что в данной модели может наблюдаться гетероскедастичность, т.е. предпосылки МНК не выполняются. Следовательно, можно предположить, что модель требует корректировки. В этом случае необходимо либо применять другую функцию, либо вводить информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.
2.11. Модель с фиктивной переменной
Для исследования влияния качественного признака введем в модель фиктивную переменную. В качестве фиктивной переменной рассмотрим площадь территории страны.
Уравнение множественной регрессии примет вид:
Оценку дисперсии ошибок рассчитаем по формуле:
= 7115,527
Оценки дисперсий параметров модели найдем по формуле:
,
где индекс ii означает, что в соответствующей матрице возьмем диагональные элементы.
Выдвигается гипотеза о случайной природе коэффициентов bi, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии с помощью t-критерия Стьюдента проводится путем сопоставления их значений с табличным значением , вычисляемым как квантиль распределения Стьюдента. Уровень значимости примем . Расчетное значение вычислим по формуле:
Так как < для коэффициентов b0, b1, b2, b4, то данные коэффициенты статически незначимы. Переменная b3 статистически значима. Фиктивная переменная статически незначима, случайно отличается от нуля.
Коэффициент детерминации для модели с фиктивными переменными немного увеличился: =0,589465994
Проверим его на значимость.
>, следовательно гипотеза отвергается, коэффициент детерминации в модели с фиктивными переменными значим.
Вывод: Т.к. фиктивная переменная статистически незначима и коэффициенты детерминации для моделей с фиктивной переменной и без нее принимают практически равные значения, различия, которые учитываются фиктивной переменной, не существенны и ее ввод в эконометрическую модель нецелесообразен.
ЗАКЛЮЧЕНИЕ
В результате построения множественной регрессии исследовано влияние на число прибывших в страну на постоянное место жительства таких факторов, как ВВП страны, численность безработных и средняя годовая заработная плата наемных рабочих.
В результате анализа были получены следующие выводы.
Изменение числа прибывших в страну на постоянное место жительства находится в прямой зависимости от годовой заработной платы наемных рабочих и величины уровня ВВП страны и в обратной зависимости от численности безработных. Наибольшее изменение числа прибывших в страну вызывает величина ВВП, а наименьшее – численность безработных.
Совместное влияние всех факторов на число прибывших в страну на постоянное место жительства достаточно велико, поскольку индекс множественной корреляции принимает высокое значение. Однако это может объясняться наличием мультиколлинеарности.
Все полученные коэффициенты уравнения множественной регрессии кроме коэффициента при факторе уровень ВВП статистически незначимы, доверительные интервал для них достаточно большой.
Не смотря на это, коэффициент детерминации показывает, что качество модели удовлетворительное. Уравнение множественной регрессии значимо, т.е. отвергается гипотеза о случайной природе оцениваемых характеристик.
Однако в модели может наблюдаться гетероскедастичность, т.е. возможно необходима коррекция модели.
Ввод фиктивной переменной не привел к изменению значимости коэффициентов регрессии. Фиктивная переменная статистически незначима. Следовательно, различия, которые ею учитываются, не существенны.
Данные результаты можно объяснить достаточно малым объемом выборки, в особенности с учетом глобальности исследования, наличием аномального значения исследуемого признака, неучтенностью каких-либо существенных факторов, а также тем, что число эмигрантов в страну зависит от большого числа не количественных, личных факторов, индивидуальных предпочтений.
Не смотря на отсутствие точного результата и качественного уравнения регрессии, пригодного для прогнозирования и дальнейших исследований, в ходе исследования удалось выявить, что заработная плата наемных рабочих в стране, уровень безработицы и ВВП оказывают немаловажное влияние на число прибывших в страну на постоянное место жительства.
Список используемой литературы
1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. – М.: Дело, 1997. – 248 с.
2. Практикум по эконометрике: Учеб. пособие/ И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2002. – 192 с.
3. Россия и страны-члены Европейского союза. Статистический сборник. – М.: Росстат, 2007. – 252 c.
4. Эконометрика: Учебник/ Под ред. И.И. Елисеевой. – М.: «Финансы и статистика», 2008. – 575 с.