Магистерская работа Порушення основних припущень лінійного регресійного аналізу
Работа добавлена на сайт bukvasha.net: 2015-10-29Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Міністерство освіти і науки України
Дніпропетровський національний університет імені Олеся Гончара
МАГІСТЕРСЬКА РОБОТА
Порушення основних припущень лінійного регресійного аналізу
Виконавець:
студентка групи МС-08-1м
Черемісіна В.О.
«__»________2009р.
Керівник роботи:
__________________ «__»________2009р.
Рецензент:
__________________ «__»________2009р.
Дніпропетровськ 2009
Реферат
Магістерська робота містить 85 сторінок, 38 рисунків, 13 таблиць, 4 джерела.
Об’єктом дослідження є основні припущення лінійного регресійного аналізу.
Мета роботи – вивчення наслідків порушення основних припущень лінійного регресійного аналізу.
Методика дослідження – оцінювання параметрів лінійної регресії МНК-методом, перевірка статистичних гіпотез, побудова простої лінійної регресії та лінійної регресії з двома незалежними змінними.
Результати досліджень можуть бути використані при розв’язанні задач та при подальшому вивченні порушень припущень лінійного регресійного аналізу.
Перелік ключових слів: ПОРУШЕННЯ ПРИПУЩЕНЬ, ЛІНІЙНА РЕГРЕСІЯ, ЗАЛИШКИ, РОЗПОДІЛ, НЕКОРЕЛЬОВАНІСТЬ, ЗНАЧУЩІСТЬ, АДЕКВАТНІСТЬ.
ЗМІСТ
ВСТУП
РОЗДІЛ І Проста лінійна регресія
Постановка задачі
Метод найменших квадратів
Точність оцінки регресії
-критерій значущості регресії
Геометрична інтерпретація коефіцієнтів регресії
Довірчий інтервал для
. Стандартне відхилення кутового коефіцієнта
Довірчий інтервал для
. Стандартне відхилення вільного члена
Довірча смуга для регресії
Повторні спостереження. Неадекватність і “чиста помилка”
Деякі відомості з математичної статистики
1.10.1 Критерій (гіпотетичний розподіл визначений)
1.10.2.Критерій (гіпотетичний розподіл невизначений)
1.10.3 Критерій Бартлетта
Аналіз залишків
Лінійна регресія з двома незалежними змінними
РОЗДІЛ ІІ Дослідження порушень основних припущень лінійного регресійного аналізу
„Ідеальна” модель лінійної регресії
Модель лінійної регресії, в якій дисперсія спостережень
величина змінна
Модель лінійної регресії, в якій спостереження
величини залежні
Модель лінійної регресії, в якій спостереження
рівномірно розподілені величини
Модель лінійної регресії, в якій спостереження
показниково розподілені величини
ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
ВСТУП
Нехай – результат спостереження, який описується лінійною моделлю виду
(1)
де – регресійна матриця розміру
,
,
– вектор невідомих параметрів,
– вектор похибок спостережень.
Припущення відносно вектора спостережень позначатимемо
:
. (2)
Або, що те ж саме, припущення відносно вектора похибок мають вигляд:
(3)
Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?
Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:
припущення про незміщеність похибок
;
припущення про однакову дисперсію і некорельованість похибок
;
припущення про нормальний розподіл похибок
;
припущення про незалежність спостережень
.
РОЗДІЛ І ПРОСТА ЛІНІЙНА РЕГРЕСІЯ
Постановка задачі
Нехай – вибірка, утворена незалежними нормально розподіленими випадковими величинами з однією і тією ж дисперсією
і середніми, про які відомо, що вони лінійно залежать від параметрів, тобто мають вигляд
, (1.1.1)
де – відомі невипадкові величини;
– невідомі параметри.
Кожну з випадкових величин можна подати у вигляді
, (1.1.2)
де називають похибкою спостережень. Похибка
змінюється від спостереження до спостереження,
(
) - незалежні випадкові величини. Відносно
будемо припускати, що
1)
2) ,
некорельовані при
(з незалежності ,
випливає їх некорельованість)
3) розподілені нормально з параметрами
.
Отже, нехай – результати спостережень, які описуються моделлю виду
(1.1.3)
Параметри невідомі, і їх необхідно оцінити за вибіркою
.
Для оцінки невідомих параметрів використовують метод максимальної правдоподібності або метод найменших квадратів.
Метод найменших квадратів
Означення 1.2.1. МНК-оцінкою параметрів будемо називати точку
, в якій функція
(1.2.1)
досягає найменшого значення.
Здиференцюємо по
, а потім по
Прирівнюємо похідні нулеві:
(1.2.2)
(1.2.3)
Останню систему називають системою нормальних рівнянь. Із (1.2.2) маємо:
(1.2.4)
Підставляємо в (1.2.3):
(1.2.5)
Оскільки
і, крім того,
то (1.2.5) запишеться у вигляді
Тоді рівняння простої лінійної регресії має вигляд
Перевіримо, що в точці функція
дійсно досягає мінімуму.
Візьмемо другі похідні:
Складаємо дискримінант:
Отже, і
. Тоді в точці
функція
досягає мінімального значення.
Зауваження 1. Якщо в рівнянні регресії
обрати , то
. Це означає, що точка
лежить на підібраній прямій.
Зауваження 2. Сума всіх залишків дорівнює нулю, дійсно,
в кожній точці.
Точність оцінки регресії
Тепер розглянемо питання про те, яка точність може бути приписана лінії регресії, коефіцієнти якої були оцінені. Розглянемо таку тотожність:
(1.3.1)
Розглянемо доданок
Підставляємо останнє в (1.3.1):
Звідки
(1.3.2)
Означення 1.3.1. Величина – це відхилення
-го спостереження від загального середнього, тому суму
називають сумою квадратів відхилень відносно середнього значення.
Означення 1.3.2. Величина – це відхилення
-го спостереження від його передбаченого значення, тому суму
називають сумою квадратів відхилень відносно регресії.
Означення 1.3.3. Величина – це відхилення
-го передбаченого значення від загального середнього, тому суму
називають сумою квадратів, обумовленою регресією.
Тоді (1.3.2) можна переписати в еквівалентній формі
сума квадратів сума квадратів сума квадратів
=
+
відносно обумовлена відносно (1.3.3)
середнього регресією регресії
З останнього випливає, що розсіювання відносно
можна приписати у деякій мірі тому факту, що не всі спостереження знаходяться на лінії регресії.
Якщо це було б не так, то відносно регресії дорівнювала б нулю
З цих міркувань зрозуміло, що придатність лінії регресії з метою прогнозування залежить від того, яка частина суму квадратів відносно середнього приходиться на суму квадратів, обумовлену регресією, і яка на суму квадратів відносно регресії.
Задовільним вважається випадок, коли сума квадратів, обумовлена регресією, буде набагато більша, ніж сума квадратів відносно регресії.
Кожна сума квадратів пов’язана з числом, яке називають її ступенем вільності.
Число ступенів вільності – це число незалежних елементів, які складаються з незалежних чисел
, необхідних для утворення даної суми квадратів.
Розглянемо суму квадратів відхилень відносно середнього значення .
Серед величин незалежними є тільки
величина, оскільки останній елемент знаходиться як лінійна комбінація інших
Число ступенів вільності цієї суми квадратів дорівнює .
Розглянемо суму квадратів, обумовлену регресією .
Єдиною функцією від є оцінка
, оскільки,
. Тому число ступенів вільності цієї суми квадратів дорівнює
.
Число ступенів вільності суми квадратів дорівнює
.
Отже, згідно з (1.3.3) ми можемо розкласти ступені вільності суми квадратів так:
(1.3.4)
За допомогою (1.3.3) та (1.3.4), побудуємо таблицю дисперсійного аналізу.
Таблиця 1.3.1. Таблиця дисперсійного аналізу
Джерело варіації | Сума квадратів | Число ступенів вільності | Середній квадрат |
Обумовлена регресією | | | |
Відносно регресії | | | |
Відносно середнього | | |
|
-критерій значущості регресії
-критерій. Якщо гіпотезу
відхиляти при
(1.4.1)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза
відхиляється, коли вона справедлива.
Якщо гіпотеза відхиляється, то регресія значуща, тобто між змінними
та
існує лінійна залежність.
Якщо ж гіпотеза не відхиляється, то регресія незначуща, між змінними
та
лінійної залежності немає.
На практиці для перевірки гіпотези також можна використовувати
-критерій, який еквівалентний
-критерію, оскільки
А
-критерій. Якщо гіпотезу
відхиляти при
(1.4.2)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза
відхиляється, коли вона справедлива.
Геометрична інтерпретація коефіцієнтів регресії
Коефіцієнт визначає точку перетину прямої регресії з віссю ординат, а коефіцієнт
характеризує нахил прямої регресії до вісі абсцис.
1
Нехай – кут, утворений прямою регресії з віссю абсцис, тоді
Отже, – це міра залежності
від
.
Згідно з оцінка
показує на скільки змінюється
при зміні
на одиницю. Знак
визначає напрям цієї зміни.
Оцінки параметрів регресії не безрозмірні величини. Оцінка
має розмірність змінної
, а оцінка
має розмірність, яка дорівнює відношенню розмірності
до розмірності
.
1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта
Введемо основні припущення (постулати) про те, що в лінійній моделі
Похибка
– випадкова величина з середнім
і невідомою дисперсією
.
Похибки
некорельовані при
, тобто
Тому
3. некорельовані при
, тобто
Похибка
нормально розподілена з параметрами
, отже,
стають не тільки некорельованими, але й незалежними.
В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра :
Перепишемо цю оцінку у вигляді
Далі розглянемо функцію
Порахуємо дисперсію цієї функції
,
Якщо – попарно некорельовані (
),
– константи, крім того,
, отже,
У виразі для константи
, оскільки
можна розглядати як величини.
Отже, дисперсія оцінки дорівнює
(1.6.1)
Стандартне відхилення оцінки – це корінь квадратний з дисперсії
(1.6.2)
Оскільки невідома, то заміть неї використовується оцінка
, припускаючи, що модель коректна.
Нагадаємо, що середній квадрат дорівнює
Тоді оцінка стандартного відхилення дорівнює
(1.6.3)
Перепишемо її у вигляді
Якщо розсіювання спостережень відносно лінії регресії нормальне, тобто, всі похибки розподілені нормально з параметрами
, то
%-вий довірчий інтервал для параметра
має вигляд
(1.6.4)
і містить невідомий параметр з імовірністю .
З іншого боку, якшо це доцільно, то ми можемо перевірити гіпотезу (
– const) проти альтернативи
.
-критерій. Якщо гіпотезу
відхиляти при
(1.6.5)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза
відхиляється, коли вона справедлива.
Після того, як ми знайшли довірчий інтервал для , немає необхідності знаходити величину
для перевірки гіпотези за допомогою t-критерію. Дійсно, досить дослідити довірчий інтервал для
і подивитись, чи містить він значення
. Якщо довірчий інтервал містить
, то гіпотеза
не відхиляється, і відхиляється у супротивному разі.
Отже, гіпотеза відхиляється, якщо
,
,
тобто лежить за межами, які відповідають (1.6.4).
1.7 Довірчий інтервал для . Стандартне відхилення вільного члена
В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра
Порахуємо дисперсію оцінки :
(1.7.1)
Тоді стандартне відхилення оцінки дорівнює:
(1.7.2)
Оскільки дисперсія невідома, то замість неї використовується оцінка
, припускаючи, що модель коректна
(1.7.3)
%-ий довірчий інтервал для параметра
має вигляд
і містить невідомий параметр з імовірністю .
-критерій. Якщо гіпотезу
(
– const) відхиляти при
і не відхиляти в супротивному разі, то з імовірністю гіпотеза
відхиляється, коли вона справедлива.
Перевірити гіпотезу можна й за допомогою довірчого інтервалу для
.
Необхідно записати довірчий інтервал для і подивитись, чи містить він значення
. Якщо довірчий інтервал містить
, то
не відхиляється, і відхиляється у супротивному разі.
Довірча смуга для регресії
Спочатку розглянемо лінійні комбінації
, де
– const,
, де
– const,
В припущеннях некорельованості при
(
при
)
, обчислимо
.
В підрозділі 1.2 було знайдено рівняння простої лінійної регресії:
.
Нехай , тоді
, звідси
.
А , тоді
, звідси
.
Отже,
тобто і
некорельовані випадкові величини.
Порахуємо дисперсію (або
при заданому
).
(1.8.1)
Стандартне відхилення оцінки при заданому
є
(1.8.2)
Оскільки невідома, то замість неї використовують оцінку
, припускаючи, що модель коректна.
Оцінка стандартного відхилення має вигляд:
(1.8.3)
Ця величина досягає мінімального значення, коли , і зростає при віддаленні
від
в будь-якому напрямі.
%-ві довірчі інтервали для регресії мають вигляд:
або, що те ж саме,
Чим більша різниця між
та
, тим більше відхилення між
та
(довжина довірчого інтервалу). Останнє означає, що точність прогнозу різна в різних точках
.
Дві криві по обидві сторони від лінії регресії визначають %-ві довірчі границі й показують, як змінюються границі в залежності від зміни
. Ці криві – гіперболи.
Для того, щоб одержати ці криві, необхідно з’єднати неперервною лінією всі значення при всіх
(нижня гіпербола) та
при всіх
(верхня гіпербола).
Повторні спостереження. Неадекватність і “чиста” помилка
Побудована лінія регресії – це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель.
Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні .
Нехай
–
спостережень при
,
–
спостережень при
,
. . . . . . . . .
–
спостережень при
,
при цьому .
Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії
. Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо
однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати
і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для
. Тому при плануванні експериментів має сенс ставити експерименти з повтореннями.
Оцінка величини , пов’язана з “чистою помилкою”, знаходиться так.
Сума квадратів, пов’язана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми .
Сума квадратів, пов’язана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми і т. д.
Загальна сума квадратів, пов’язана з “чистою помилкою”дорівнює
з загальним числом ступенів вільності
Звідси середній квадрат для “чистої помилки” дорівнює
(1.9.1)
і є оцінкою для .
Покажемо, що сума квадратів, пов’язана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії).
Залишок для -того спостереження при
можна записати у вигляді:
Піднесемо праву та ліву частини рівності до квадрату.
Візьмемо суму по кожному з індексів та
.
(1.9.2)
при цьому .
Суму (1.9.2) можна записати так
Сума Сума квадратів Сума
квадратів = “чистих + квадратів (1.9.3.)
залишків помилок” неадекватності
Число ступенів вільності:
Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу.
Таблиця 1.9.1. Таблиця дисперсійного аналізу
Джерело варіації | Число ступенів |
вільності | Сума квадратів | Середній квадрат | Статистика | |
Відносно середнього | | |
|
|
Обумовлена регресією | | | | |
Відносно регресії | | | |
|
Неадекватність | | | | |
„Чиста помилка” | | | |
|
Критерій для перевірки адекватності моделі регресії можна сформулювати так.
Якщо
(1.9.4)
то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку:
(1.9.5)
відношення є незначущим (лінійна модель адекватна), при цьому як , так і
можна використовувати як оцінки для
.
Об’єднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх об’єднання у суму квадратів залишків і поділу її на число ступенів вільності
.
Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну).
Деякі відомості з математичної статистики
1.10.1 Критерій (гіпотетичний розподіл визначений)
Постановка задачі. Нехай – реалізація вибірки з невідомого розподілу
, відносно якого висувається гіпотеза
, де
належить заданому класу розподілів (зокрема,
може бути повністю визначеним розподілом). Гіпотезу
можна сформулювати і так:
є вибіркою з розподілу
із заданими властивостями.
Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу
чи ні.
Відхилення емпіричного розподілу від гіпотетичного. Незалежно від того, справджується гіпотеза чи ні, емпіричний розподіл
, побудований за вибіркою
з
, а саме, для кожного фіксованого
значення емпіричної функції розподілу
є незміщеною і спроможною оцінкою
. Тому, якщо ввести відхилення
емпіричного
розподілу від гіпотетичного
, причому так, щоб воно набирало малих значень, коли гіпотеза
справджується, і великих, коли гіпотеза
не справджується (а це видається цілком можливим, оскільки
мало відрізняється від
), то гіпотезу
природно відхиляти або не відхиляти залежно від того, якого значення набрало відхилення
- великого чи малого.
Відхилення Пірсона емпіричного розподілу від гіпотетичного
. Відхилення між двома розподілами:
- емпіричним, побудованим за вибіркою
, і
– гіпотетичним, заданими на множині
вибіркових значень
(на вибірковому просторі), можна будувати різними способами. Далі описано відхилення
від
, запропоноване Пірсоном. Воно будується так. Ділимо
на скінчене число
неперетинних множин
:
.
І як відхилення від
розглядаємо
(1.10.1.1)
де - імовірність того, що вибіркове значення
потрапить до множини
, обчислена за гіпотетичним розподілом
(тобто
));
– імовірність вибірковому значенню потрапити до множини
, обчислена за емпіричним розподілом
; чисельно ця ймовірність дорівнює частоті вибірковому значенню потрапити до множини
, знайденій за вибіркою
(
– кількість вибіркових значень з
, що потрапили до
).
Далі, якщо , то
є ймовірність вибірковому значенню потрапити до
, обчислена за розподілом
, з якого добуто вибірку
, а тому для кожного
частоти
вибіркового значення потрапити до
є незміщеними і спроможними оцінками ймовірностей
. І отже, відхилення
є малим порівняно з відхиленням
від
, обчисленими за розподілом
, відмінним від
. А разом із ними малим є відхилення
порівняно з відхиленням
, коли розподіл
відмінний від
(більш того,
– мінімально можливе відхилення).
Таким чином, для перевірки гіпотези :
є вибірка з розподілу
, обчислюємо відхилення
. Якщо при цьому
набрало малого значення, то гіпотезу
не відхиляємо , у супротивному разі – відхиляємо.
Межі, що відокремлюють великі значення відхилення від малих, установлюються на підставі того факту, що для вибірки
з розподілу
при великих
розподіл
(розподіл мінімально можливого відхилення) мало відрізняється від розподілу
з
ступенями вільності.
Критерій (гіпотетичний розподіл не залежить від невідомих параметрів). Нехай
– вибірка із розподілу
і
– верхня α-межа
- розподілу з
ступенями вільності.
Якщо гіпотезу :
є вибірка з розподілу
відхиляти при
(1.10.1.2)
і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.
1.10.2 Критерій (гіпотетичний розподіл невизначений)
Нехай – вибірка з невідомого розподілу
, стосовно якого висувається гіпотеза
.
Розподіл залежить від параметрів
, які невідомо, причому єдиним джерелом інформації про значення цих параметрів є вибірка
. Іншими словами, гіпотеза
полягає в тому, що
є вибіркою із розподілу, який належить до класу розподілів
.
Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу
чи ні.
Природно діяти так. Визнаємо за значення невідомих параметрів їхні оцінки
, знайдені за вибіркою
, і, отже, за гіпотетичний приймемо розподіл
. Відхилення
будуємо так само, як і раніше:
(1.10.2.1)
де – імовірність того, що вибіркове значення потрапить до множини
, обчислена за гіпотетичним розподілом. Фішер встановив, що коли гіпотеза
справджується і оцінки
знайдено за методом максимальної правдоподібності, то розподіл відхилення
між
і
, коли
, збігається до розподілу
з
ступенями вільності, де
– кількість параметрів, оцінених за вибіркою
.
Таким чином, коли параметри оцінюються за вибіркою методом максимальної правдоподібності, можна користуватися критерієм у такому формулюванні.
Якщо гіпотезу відхиляти при
(1.10.2.2)
і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.
Критерій Бартлетта
Доволі поширеним є випадок, в якому вважається відомим, що дисперсії похибок всередині певних груп рівні. Припустимо, що ми хочемо перевірити гіпотезу
. Тоді, якщо маємо
взаємно незалежних статистик
(
– число ступенів вільності
), то можна перевірити гіпотезу
, використовуючи критерій Бартлетта.
Цей критерій вимагає обчислення статистики
,
де
і
.
Якщо гіпотеза справедлива, то статистика
розподілена приблизно як
, причому така апроксимація виявляється задовільною і при досить малих вибірках (
). На жаль, цей критерій надто чутливий до будь-якого відхилення від нормальності величин, що складають кожне
. Значимість статистики
може вказувати не на відсутність однорідності дисперсії, а просто на відхилення від нормальності.
1.11 Аналіз залишків
Електронні обчислювальні машини дають нам можливість обчислення відхилень кожного серед значень , що спостерігались, від апроксимуючої регресії
. Ці різниці називаються залишками і позначаються символами
,
Критерій Дарбіна-Уотсона.
Нехай нам треба підібрати постульовану лінійну модель
(1.11.1)
методом найменших квадратів за спостереженнями . Зазвичайми повинні припускати, що похибки
– незалежні випадкові величини з розподілом
, тобто всі серіальні кореляції
. За допомогою критерію Дарбіна-Уотсона можна перевірити гіпотезу
про те, що всі
проти альтернативної гіпотези
: залишки пов’язані корельовано лінійною залежністю
,
де .
Для перевірки гіпотези проти альтернативи
будуємо модель за рівнянням (1.15.1) і знаходимо набір залишків
. Тепер можна побудувати статистику
(1.11.2)
і визначити на її основі, чи можна відхиляти гіпотезу .
Критичні точки статистики Дарбіна-Уотсона табульовані.
Знаходимо верхню і нижню
границі (вони залежать від числа
в моделі і кількості спостережень
).
Якщо , то залишки додатньо автокорельовані.
Якщо , то залишки некорельовані.
Якщо , то залишки від’ємно корельовані.
Якщо або
, то необхідно збільшити кількість спостережень.
1.12 Лінійна множинна регресія з двома незалежними змінними
Нехай – результати спостережень, які описуються моделлю:
(1.12.1)
Основні припущення мають вигляд:
Значення змінних відомі й ці змінні незалежні. Необхідно знайти оцінки невідомих параметрів
.
Використаємо МНК-метод:
Отримаємо систему нормальних рівнянь для моделі (1.12.1). Ця система включає систему нормальних рівнянь простої лінійної регресії.
(1.12.2)
знаходяться з першого та другого рівнянь останньої системи.
Отримали рівняння регресії:
Матричний спосіб знаходження .
;
;
;
;
– транспонована матриця.
Систему (1.12.2) перепишемо у вигляді:
Або в матричному виді:
Домножимо праву та ліву частини на .
Звідси
.
Або, що те ж саме,
.
У множинній лінійній регресії на значущість треба перевіряти всю регресію, а також окремі коефіцієнти регресії. В першому випадку використовується загальний -критерій, а у другому – частинний
-критерій.
Загальний -критерій.
Для перевірки гіпотези використовується
-критерій, в якому
Загальна сума квадратів
,
де
Сума квадратів залишків
Сума квадратів, обумовлена регресією
Джерело варіації | SS | df | MS | F |
Регресія | | 2 | | |
Залишки | | | |
|
Загальна | | |
|
|
-критерій перевірки значущості.
Гіпотеза відхиляється, якщо
, (1.12.3)
і в цьому випадку кажуть, що регресія значуща; і не відхиляється в супротивному разі (регресія незначуща).
Частинний -критерій.
Розглянемо 3 моделі:
.
– МНК-оцінки параметрів
.
;
.
.
– МНК-оцінки параметрів
, які не збігаються з оцінками моделі 1.
;
.
.
– МНК-оцінки параметрів
, які не збігаються з оцінками моделей 1, 2.
;
.
Означення 1. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 2 члена
;
.
Означення 2. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 3 члена
;
.
Оскільки
,
,
де – число ступенів вільності, що відповідають середній сумі квадратів
:
,
ми можемо записати 2 частинні -критерії.
Гіпотеза
(при умові, що
включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт
є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта
в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.
Гіпотеза
(при умові, що
включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт
є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта
в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.
РОЗДІЛ ІІ ДОСЛІДЖЕННЯ ПОРУШЕНЬ ОСНОВНИХ ПРИПУЩЕНЬ ЛІНІЙНОГО РЕГРЕСІЙНОГО АНАЛІЗУ
2.1 „Ідеальна” модель лінійної регресії
Нехай – незалежні нормально розподілені випадкові величини з однаковою дисперсією
та середніми
, лінійними за параметрами
, де
– невідомі параметри,
– відомі невипадкові величини. Кожну випадкову величину
можна подати у вигляді
, де
– похибки спостережень, і вони змінюються від спостереження до спостереження. Відносно похибок
висуваються припущення:
, – незалежні випадкові величини;
.
За спостереженнями , які описуються моделлю
(2.1.1)
необхідно оцінити невідомі параметри .
Означення 2.1.1. «Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду
(2.1.2)
«Ідеальна» модель лінійної регресії – це модель (2.1.1) з коефіцієнтами .
Означення 2.1.2. «Ідеальною» моделлю простої лінійної регресії називатимемо модель виду
(2.1.3)
«Ідеальна» модель простої лінійної регресії – це модель (2.1.1) з коефіцієнтами та змінною
.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з параметрами
відповідно, де
а середні
обирались так.
Квадрат розіб’ємо на 16 однакових квадратів розміром
. В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром
. Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні
.
Рис. 2.1.1. Вибір значень , які набувають невипадкові змінні
«Ідеальна» модель простої лінійної регресії. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в „ідеальній” моделі.
Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.1.2.
Рис. 2.1.2. „Ідеальна” модель простої лінійної регресії
Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії наведено в таблиці 2.1.1.
Таблиця 2.1.1. Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 111167 | 1 | 111167 | 1411,53 |
Відносно регресії | 50246,7 | 638 | 78,8 |
|
Відносно середнього | 161413,7 | 639 |
|
|
Неадекватність | 828,5 | 6 | 138,1 | 1,77 |
"Чиста помилка" | 49418,2 | 632 | 78,2 |
|
F1 = 1,77 < 2,11 = F0,05;6;632, „ідеальна” модель адекватна.
F2 = 1411,53 > 3,86 = F0,05;1;638, „ідеальна” модель значуща.
Перевіримо гіпотези за допомогою критерію Стьюдента.
Якщо , то гіпотеза
відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза
відхиляється, і не відхиляється у супротивному випадку.
|t1| = 1,46 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 1 < 1,96 = t0,025;638, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
.
Оскільки , то залишки
„ідеальної” моделі некорельовані.
Рис. 2.1.3. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис.2.1.4. Нормальний розподіл залишків
Статистика, тому залишки можна вважати нормально розподіленими з параметрами
.
Статистика Бартлетта , тому дисперсія залишків
постійна.
Отже,
„ідеальна” модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, а гіпотеза
не відхиляється);
залишки
, „ідеальної” моделі некорельовані;
залишки
„ідеальної” моделі нормально розподілені випадкові величини з параметрами
;
дисперсія залишків
„ідеальної” моделі величина постійна.
«Ідеальна» модель лінійної регресії з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в „ідеальній” моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.1.5.
Рис. 2.1.5. „Ідеальна” модель лінійної регресії з двома незалежними змінними
Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії наведено в таблиці 2.1.2.
Таблиця 2.1.2. Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 232687,1 | 2 | 116343,5 | 1399,4 |
Відносно регресії | 52960,7 | 637 | 83,1 |
|
Відносно середнього | 285647,7 | 639 |
|
|
Неадекватність | 3965,6 | 61 | 65 | 0,76 |
"Чиста помилка" | 48995,1 | 576 | 85,1 |
|
F1 = 0,76 < 1,34= F0,05;61;576, „ідеальна” модель адекватна.
F2 = 1399,4 > 3,01= F0,05;2;637, регресія значуща.
Перевіримо гіпотези за допомогою критерію Стьюдента.
Якщо , то гіпотеза
відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза
відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза
відхиляється, і не відхиляється у супротивному випадку.
|t1| = 0,04 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 0,3 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t3| = 0,7 < 1,96 = t0,025;637, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
.
Оскільки , то залишки
„ідеальної” моделі некорельовані.
Рис. 2.1.6. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис.2.1.6. Нормальний розподіл залишків
Статистика, тому залишки можна вважати нормально розподіленими з параметрами
.
Статистика Бартлетта , тому дисперсія залишків
постійна.
Отже,
„ідеальна” модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, гіпотеза
не відхиляється, гіпотеза
не відхиляється);
залишки
, „ідеальної” моделі некорельовані;
залишки
„ідеальної” моделі нормально розподілені випадкові величини з параметрами
;
дисперсія залишків
„ідеальної” моделі величина постійна.
2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна
Нехай – незалежні нормально розподілені випадкові величини з середніми
, лінійними за параметрами
та дисперсією
, що змінюється від спостереження до спостереження.
Параметри невідомі,
– відомі невипадкові величини.
За спостереженнями , які описуються моделлю
, (2.2.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.2.1), значущість лінійної регресії
, а також з’ясувати, чи виконуються основні припущення
лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з середніми, що дорівнюють сумі координат точок квадрата, і змінними дисперсіями:
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.2.1.
Рис. 2.2.1. Модель простої лінійної регресії, в якій дисперсія спостережень
величина змінна
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.2.1.
Таблиця 2.2.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій дисперсія спостережень величина змінна
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 124615,2 | 1 | 124615,2 | 166,26 |
Відносно регресії |
478200,8 | 638 | 749,5 |
| |
Відносно середнього | 602816 | 639 |
|
|
Неадекватність | 3025,8 | 6 | 504,3 | 0,67 |
"Чиста помилка" | 475175 | 632 | 751,9 |
|
F1 = 0,67 < 2,11 = F0,05;6;632, лінійна модель адекватна.
F2 = 166,26 > 3,86 = F0,05;1;638, регресія значуща.
|t1| = 0,04 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 0,38 < 1,96 = t0,025;638, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис. 2.2.2. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис.2.2.3. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, а гіпотеза
не відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.2.4.
Рис. 2.2.4. Модель лінійної регресії, в якій дисперсія спостережень
величина змінна
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.2.2.
Таблиця 2.2.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій дисперсія спостережень величина змінна
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 209188,2 | 2 | 104594,1 | 132,29 |
Відносно регресії | 503614,7 | 637 | 790,6 |
|
Відносно середнього | 712802,9 | 639 |
|
|
Неадекватність | 32906,7 | 61 | 539,5 | 0,66 |
"Чиста помилка" | 470708,0 | 576 | 817,2 |
|
F1 = 0,66 < 1,34= F0,05;61;576, лінійна модель адекватна.
F2 = 132,29 > 3,01= F0,05;2;637, регресія значуща.
|t1| = 1,09 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 1,88 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t3| = 0,38 < 1,96 = t0,025;637, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис. 2.2.5. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.2.6. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, гіпотеза
не відхиляється, гіпотеза
не відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
2.3 Модель лінійної регресії, в якій спостереження величини залежні
Нехай – залежні нормально розподілені випадкові величини з однаковою дисперсією
та середніми
, лінійними за параметрами
.
Параметри невідомі,
– відомі невипадкові величини.
За спостереженнями , які описуються моделлю
, (2.3.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.3.1), значущість лінійної регресії
, а також з’ясувати, чи виконуються основні припущення
лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з нормального розподілу з параметрами 0 та 1.
Наступні 7 вибірок рахуються за формулою
,
де сталі – елементи послідовності Фібоначчі, а саме:
.
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що , наведено на рисунку 2.3.1.
Рис. 2.3.1. Модель лінійної регресії, в якій спостереження
величини залежні
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.3.1.
Таблиця 2.3.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження величини залежні
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 0,97 | 1 | 0,97 | 0,03 |
Відносно регресії | 22892,15 | 638 |
35,88 |
| |||
Відносно середнього | 22893,13 | 639 |
|
|
Неадекватність | 9,81 | 6 | 1,64 | 0,05 |
"Чиста помилка" | 22893,13 | 632 | 36,21 |
|
F1 = 0,05 < 2,11 = F0,05;6;632, лінійна модель адекватна.
F2 = 0,03 < 3,86 = F0,05;1;638, регресія незначуща.
|t1| = 0,29 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 100 > 1,96 = t0,025;638, гіпотеза відхиляється.
Рис. 2.3.2. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис.2.3.3. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
незначуща (гіпотеза
не відхиляється; гіпотеза
не відхиляється, а гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.3.4.
Рис. 2.3.4. Модель лінійної регресії, в якій спостереження
величини залежні
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.3.2.
Таблиця 2.3.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження величини залежні
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 11,83 | 2 | 5,92 | 0,25 |
Відносно регресії | 15256,05 | 637 | 23,95 |
|
Відносно середнього | 15267,88 | 639 |
|
|
Неадекватність | 119,56 | 61 | 1,96 | 0,07 |
"Чиста помилка" | 15136,49 | 576 | 26,28 |
|
F1 = 0,07 < 1,34= F0,05;61;576, лінійна модель адекватна.
F2 = 0,25 < 3,01= F0,05;2;637, регресія незначуща.
|t1| = 0,94 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис. 2.3.5. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.3.6. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, гіпотеза
відхиляється, гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини
Нехай – незалежні рівномірно розподілені випадкові величини.
За спостереженнями , які описуються моделлю
, (2.4.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.4.1), значущість лінійної регресії
, а також з’ясувати, чи виконуються основні припущення
лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень з рівномірного на відрізку
розподілу.
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.4.1.
Рис. 2.4.1. Модель простої лінійної регресії, в якій спостереження
рівномірно розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.4.1.
Таблиця 2.4.1 Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження рівномірно розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 28061,45 | 1 | 28061,45 | 437,88 |
Відносно регресії | 40886,36 | 638 | 64,09 |
|
Відносно середнього | 68947,81 | 639 |
|
|
Неадекватність | 414 | 6 | 69 | 1,07 |
"Чиста помилка" | 40472,36 | 632 | 64,04 |
|
F1 = 1,07 < 2,11 = F0,05;6;632, модель адекватна.
F2 = 437,88 > 3,86 = F0,05;1;638, регресія значуща.
|t1| = 0,16 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 25,5 > 1,96 = t0,025;638, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис.2.4.2. Графік залишків – дисперсія залишків змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.4.3. Нормальний розподіл залишків
Статистика, , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК-оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що значення обираються згідно рис. 2.1.1, наведено на рисунку 2.4.4.
Рис. 2.4.4. Модель лінійної регресії, в якій спостереження
рівномірно розподілені
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.4.2.
Таблиця 2.4.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження рівномірно розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 28171,07 | 2 | 14085,54 | 220,04 |
Відносно регресії | 40776,74 | 637 | 64,01 |
|
Відносно середнього | 68947,81 | 639 |
|
|
Неадекватність | 3539,39 | 61 | 58,02 | 0,89 |
"Чиста помилка" | 37237,35 | 576 | 64,65 |
|
F1 = 0,89 < 1,34 = F0,05;61;576, модель адекватна.
F2 = 220,04 > 3,01 = F0,05;2;637, модель значуща.
|t1| = 0,74 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 25,5 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 48,5 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерія
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис.2.4.5. Графік залишків – дисперсія залишків змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.4.5. Нормальний розподіл залишків
Статистика, , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
значуща (гіпотеза
не відхиляється; гіпотеза
відхиляється, гіпотеза
відхиляється, гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
2.5 Модель простої лінійної регресії, в якій спостереження показниково розподілені величини
Нехай – незалежні показниково розподілені випадкові величини з параметром
.
За спостереженнями , які описуються моделлю
, (2.5.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.5.1), значущість лінійної регресії
, а також з’ясувати, чи виконуються основні припущення
лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з показникового розподілу з параметром
.
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.5.1.
Рис. 2.5.1. Модель простої лінійної регресії, в якій спостереження
показниково розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.1.
Таблиця 2.5.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 6,6 | 1 | 6,6 | 2,11 |
Відносно регресії | 1992,5 | 638 | 3,12 |
|
Відносно середнього | 1999,1 | 639 |
|
|
Неадекватність | 16,04 | 6 | 2,67 | 0,85 |
"Чиста помилка" | 1976,46 | 632 | 3,13 |
|
F1 = 0,85 < 2,11 = F0,05;6;632, модель адекватна.
F2 = 2,11 < 3,86 = F0,05;1;638, тому регресія незначуща.
|t1| = 12,29 > 1,96 = t0,025;498, гіпотеза відхиляється.
|t2| = 99 > 1,96 = t0,025;498, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
Оскільки
, то залишки
цієї моделі некорельовані.
Рис. 2.5.2. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.5.3. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
модель
незначуща (гіпотеза
відхиляється; гіпотеза
не відхиляється, гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення
в цій моделі.
Результати стохастичного експерименту, за умов, що значення обиралися згідно рис.2.1.1, наведено на рисунку 2.5.4.
Рис. 2.5.4. Модель лінійної регресії, в якій спостереження показниково розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.2.
Таблиця 2.5.2. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 9,3 | 2 | 9,3 | 1,49 |
Відносно регресії | 1989,79 | 637 | 3,12 |
|
Відносно середнього | 1999,09 | 639 |
|
|
Неадекватність | 176,57 | 61 | 2,89 | 0,92 |
"Чиста помилка" | 1813,22 | 576 | 3,15 |
|
F1 = 0,92 < 1,34 = F0,05;61;576, лінійна модель адекватна.
F2 = 1,49 < 3,01 = F0,05;2;637, регресія незначуща.
|t1| = 8,42 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
. Оскільки
, то залишки
цієї моделі некорельовані.
Рис. 2.5.5. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію
.
Рис. 2.5.6. Нормальний розподіл залишків
Статистика , тому залишки
не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків
змінна величина.
Отже,
лінійна модель адекватна;
регресія
незначуща (гіпотеза
відхиляється; гіпотеза
не відхиляється, гіпотеза
відхиляється, гіпотеза
відхиляється);
залишки
некорельовані;
залишки
не можна вважати нормально розподіленими;
дисперсія залишків
змінна величина.
ВИСНОВКИ
Нехай – результат спостереження, який описується лінійною моделлю виду
(1)
де – регресійна матриця розміру
,
,
– вектор невідомих параметрів,
– вектор похибок спостережень.
Припущення відносно вектора спостережень позначатимемо
:
. (2)
Або, що те ж саме, припущення відносно вектора похибок мають вигляд:
(3)
Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?
Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:
припущення про незміщеність похибок
; (4)
припущення про однакову дисперсію і некорельованість похибок
(5)
припущення про нормальний розподіл похибок
; (6)
припущення про незалежність спостережень
. (7)
Наслідки порушення припущень (4)-(7) розглянемо на прикладі лінійної регресії з двома незалежними змінними.
«Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду
(8)
«Ідеальна» модель – це модель (1) з коефіцієнтами .
Опишемо вибір невипадкових змінних .
Квадрат розіб’ємо на 16 однакових квадратів розміром
. В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром
. Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні
.
Рис. 1. Вибір значень , які набувають невипадкові змінні
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (8).
Результати експерименту наведено на рисунку 2.
Рис. 2
За допомогою критеріїв математичної статистики ми будемо перевіряти не тільки, чи виконуються припущення регресійного аналізу, але й гіпотези про адекватність лінійної моделі, про значущість регресії, про значущість коефіцієнтів регресії. Отже, модель (8) узгоджується з результатами експерименту, жодне з вихідних припущень не порушено.
„ідеальна” модель
адекватна (модель лінійна);
„ідеальна” регресія
значуща;
гіпотези
,
не відхиляються;
дисперсія залишків
постійна;
залишки
некорельовані;
залишки
нормально розподілені
.
Розглянемо модель лінійної регресії, в якій дисперсія спостережень величина змінна, тобто припущення (5) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(9)
Результати експерименту наведено на рисунку 3.
Рис. 3
В порівнянні з ідеальною моделлю залишки не мають
.
Отже, разом з порушенням припущення про постійну дисперсію залишків порушується й припущення про нормальний розподіл залишків.
Якщо залишки не мають нормального розподілу, то використовувати МНК-метод для оцінки параметрів регресії неприпустимо (МНК-оцінки не збігаються з ММП-оцінками).
Розглянемо модель лінійної регресії, в якій спостереження величини залежні, тобто припущення (7) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(10)
Результати експерименту наведено на рисунку 4.
Рис. 4
В порівнянні з ідеальною моделлю
регресія
незначуща;
гіпотези
,
відхиляються;
дисперсія залишків
змінна величина;
залишки
не мають
.
Отже, разом з порушенням припущення про незалежність спостережень , порушуються й припущення про постійність дисперсії залишків і припущення про нормальний розподіл залишків. Такі порушення неприпустимі.
Розглянемо модель лінійної регресії, в якій спостереження рівномірно розподілені, тобто припущення (6) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(11)
Результати експерименту наведено на рисунку 5.
Рис. 5
В порівнянні з ідеальною моделлю
гіпотези
,
відхиляються;
дисперсія залишків
змінна величина.
Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.
Розглянемо модель лінійної регресії, в якій спостереження показниково розподілені, тобто припущення (6) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(12)
Результати експерименту наведено на рисунку 6.
Рис. 6
В порівнянні з ідеальною моделлю,
лінійна регресія
незначуща;
гіпотези
відхиляються;
дисперсія залишків
змінна величина.
Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
Дрейпер Н., Смит Г. Прикладной регрессионный анализ. – М.: Статистика, 1973.
Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений, 2-е изд. – М.: Физматгиз, 1962.
Рао С.Р. Линейные статистические методы и их применение. – М.: Наука, 1968.
Себер Дж. Линейный регрессионный анализ. – М: Мир, 1980.