Диплом Парадокси в математичній статистиці
Работа добавлена на сайт bukvasha.net: 2015-10-24Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Міністерство освіти і науки України
Дніпропетровський національний університет ім. О. Гончара
Дипломна робота
Парадокси в математичній статистиці
Виконавець:
студентка групи МС-08-1с Хмара М.С.
"__"________2009р.
Керівник роботи:
Дніпропетровськ 2009
Реферат
Дипломна робота містить: 87 сторінок, 7 джерел, 2 рисунки.
Об’єктом дослідження є парадокси математичної статистики.
Мета роботи: пояснити парадокси математичної статистики.
Методика дослідження: оцінювання параметрів розподілів.
Результати досліджень можуть бути застосовані при читанні лекцій з дисципліни "Математична статистика" у вищих навчальних закладах як ілюстративний матеріал основних понять математичної статистики, таких як точкові оцінки, оцінки мінімальної дисперсії, метод максимальної правдоподібності, метод найменших квадратів.
Перелік ключових слів: ВИБІРКА, НЕРІВНІСТЬ КРАМЕРА - РАО, ОЦІНКА, МАТЕМАТИЧНЕ СПОДІВАННЯ, ФОРМУЛА БАЙЄСА, МЕТОД НАЙМЕНШИХ КВАДРАТІВ, МЕТОД МАКСИМАЛЬНОЇ ПРАВДОПОДІБНОСТІ.
Зміст
Вступ
Розділ І. Основні поняття математичної статистики
1.1 Нерівність Крамера - Рао (розподіл дискретний)
1.2 Теорема 1.2.2 (нерівність Крамера - Рао, розподіл дискретний)
1.3 Метод максимальної правдоподібності
Розділ ІІ. Парадокси в математичній статистиці
2.1 Парадокс оцінок математичного сподівання
2.1.1 Історія парадоксу
2.1.2 Парадокс
2.1.3 Пояснення парадоксу
2.2 Парадокс Байєса
2.2.1 Історія парадоксу
2.2.2 Парадокс
2.2.3 Пояснення парадоксу
2.3 Парадокс методу найменших квадратів
2.3.1 Історія парадоксу
2.3.2 Парадокс
2.3.3 Пояснення парадоксу
2.4 Парадокс оцінок дисперсії
2.4.1 Історія парадоксу
2.4.2 Парадокс
2.4.3 Пояснення парадоксу
2.5 Парадокс кореляції
2.5.1 Історія парадоксу
2.5.2 Парадокси
2.5.3 Пояснення парадоксів
2.5.4 Зауваження
2.6 Парадокси регресії
2.6.1 Історія парадокса
2.6.2 Парадокси
2.6.3 Пояснення парадоксів
2.7 Парадокси достатності
2.7.1 Історія парадоксу
2.7.2 Парадокс
2.7.3 Пояснення парадоксу
2.7.4 Зауваження
2.8 Парадокси методу максимальної правдоподібності
2.8.1 Історія парадоксу
2.8.2 Парадокси
2.8.3 Пояснення парадоксів
2.9 Парадокс інтервальних оцінок
2.9.1 Історія парадоксу
2.9.2 Парадокс
2.9.3 Пояснення парадоксу
2.9.4 Зауваження
2.10 Парадокс - критерію Стьюдента
2.10.1 Історія парадокса
2.10.2 Парадокс
2.10.3 Пояснення парадоксу
2.10.4 Зауваження
2.11 Парадокс перевірки гіпотез
2.11.1 Історія парадоксу
2.11.2 Парадокс
2.11.3 Пояснення парадоксу
Висновки
Список використаних джерел
Приложение
Вступ
Статистика - це фізика чисел
П. Діаконіс
Спочатку статистика була “державною арифметикою". Саме слово “статистика" походить від латинського слова status - держава. З найдавніших часів статистику використовували для того, щоб інформувати володарів держав про величину податку, який можна зібрати з громадян, або про кількість солдат, на яку можна розраховувати у воєнний час. Перший англійський статистичний документ “Книга судного дня", написаний в ХІ віці, також виник у зв’язку з потребами армії і податкообкладання. Статистика стала наукою аж в ХVІІ віці. Її основоположниками є Джон Граунт (1620 - 1674) і сер Вільям Петті (1623 - 1687). В роботі Петті “Політична арифметика” Англія, Голландія і Франція порівнювалися за їх населенням, торгівлею і судноплавством. З розвитком капіталізму статистичними даними стали цікавитися не тільки державні діячі. Поступово розвиваючись, математична статистика перетворилася в самостійну галузь математики. Математична статистика багата на парадокси. Ейрес стверджував, що 50 найбільш часто вживаних слів складають приблизно 50% звичайного тексту, 300 найбільш часто вживаних слів складають 75% тексту, а 1000 найбільш часто вживаних слів складають 90%. Не дивлячись на цей факт, не можна сказати, що коли нам відомі 50 чи 100 слів якоїсь мови, то ми вже наполовину її розуміємо, оскільки знання деяких слів, навіть якщо вони часто вживаються, навряд чи допоможе в розумінні будь-якого тексту. Не дивно, що багато людей вважають, що існує три види неправди: невинний обман, нахабна брехня і статистика.
Розділ І. Основні поняття математичної статистики
Точкові оцінки.
Означення. Випадковий вектор зі значеннями в просторі називатимемо вибіркою (вибірковим вектором).
Вибірку утворену послідовністю незалежних однаково розподілених випадкових величин , кожна з яких має розподіл , називають вибіркою з розподілу (закону) обсягом .
Множину усіх можливих значень вибірки (вибіркового вектора) будемо називати вибірковим простором (далі вибірковий простір - це або його підмножина).
Ми розглядатимемо вибірки, розподіли (функції розподілу) яких залежать від параметра . Множина можливих значень параметра є підмножиною скінчено-вимірного простору .
Постановка задачі оцінювання параметрів розподілів. Нехай - реалізація вибірки з розподілом . Розподіл залежить від параметра , який набуває значень із множини . Значення параметра невідоме і його необхідно оцінити (визначити) за реалізацією вибірки . У цьому і полягає задача оцінювання параметрів розподілів.
Єдине, що нам відомо для оцінювання невідомого параметра - це реалізація вибірки . Крім реалізації вибірки ми не маємо нічого, що несло б інформацію про значення параметра . Тому "оцінити (визначити) за реалізацією (точно чи хоча б наближено)" означає поставити у відповідність реалізації вибірки значення параметра . Формально це означає, що для оцінювання на вибірковому просторі - множині реалізації вибірок - необхідно визначити (побудувати, задати) функцію зі значеннями в - множині можливих значень параметра - таку, що дорівнює або хоча б наближено дорівнює . Значення ми й будемо використовувати як . Зазначимо, що для кожної реалізації значення , яке використовується як , буде своє; тому як функція є випадковою величиною.
Означення. Борелеву функцію , задану на вибірковому просторі , зі значеннями в - множині можливих значень параметра - будемо називати статистикою, а - борелеву функцію від вибірки - оцінкою.
Будувати статистики , такі щоб тобто статистики, з допомогою яких за можна було б точно визначити , явно не вдасться вже хоча б тому, що є константою, а оцінка як функція вибірки (випадкової величини) є випадковою величиною. Тож подобається нам чи ні, для визначення ми будемо змушені вдовольнятися оцінками , як наближеними значеннями .
Зазначимо, що для одного й того самого параметра можна запропонувати багато оцінок.
Похибки оцінювання параметрів. У зв’язку з постановкою задачі оцінювання параметрів розподілів як задачі знаходження наближених значень параметра треба вміти відповідати на запитання: наскільки великою є похибка при заміні на , інакше кажучи, як далеко можуть відхилятися значення оцінки , обчисленої за вибіркою , відповідної величини ?
Від оцінки , яка пропонується для оцінювання того чи іншого параметра, природно вимагати малого розсіювання її значень, іншими словами концентрації їх у вузькому колі. Як кількісну міру розсіювання значень випадкової величини розглядатимемо (для наочності - одновимірний параметр).
Кількісно міру похибки при заміні на (міру розсіювання відносно ) будемо описувати величиною
Серед усіх оцінок з однією і тією самою дисперсією (мірою розсіювання) мінімальну міру розсіювання відносно мають оцінки, для яких . Останнє випливає з рівностей
Означення. Оцінку будемо називати незміщеною оцінкою параметра , якщо , або, що те саме,
Наочно незміщеність оцінки параметра можна трактувати так: за багаторазового використання оцінки як значення , тобто за багаторазової заміни на , середнє значення похибки дорівнює нулеві.
Часто розглядають не одну оцінку , побудовану за вибіркою , а послідовність оцінок У цій ситуації природно говорити про асимптотичну поведінку послідовності оцінок.
Означення. Послідовність оцінок будемо називати спроможною послідовністю оцінок параметра , якщо для кожного
при , або, що те саме, збігається за ймовірністю до , при .
Означення. Послідовність оцінок називатимемо асимптотично незміщеною послідовністю оцінок параметра , якщо при , або, що те саме, при .
Оцінки мінімальної дисперсії.
Основне питання задачі оцінювання параметрів розподілів - наскільки великою є похибка при заміні параметра оцінкою .
Оцінки , що пропонуються для оцінювання параметра , повинні бути незміщеними, тобто .
Такі оцінки мають меншу міру розсіювання відносно порівняно з оцінками, для яких .
Для оцінювання параметра можна запропонувати багато незміщених оцінок. Із сукупності таких оцінок природно вибрати ті, що мають мінімально можливу міру розсіювання (дисперсію).
Означення. Незміщену оцінку параметра будемо називати його найкращою оцінкою, оцінкою мінімальної дисперсії або ефективною оцінкою, якщо .
У зв’язку з цим означенням природно виникає питання: наскільки малою може бути мінімально можлива дисперсія оцінки (наскільки малими можуть бути відхилення від )? Виявляється, що коли сукупність розподілів , вибірки досить регулярно залежить від оцінюваного параметра , то можна вказати нижню межу дисперсії всіх незміщених оцінок параметра (нерівність Крамера - Рао). У деяких випадках існують оцінки параметра, на яких нижня межа досягається. Ці оцінки є ефективними. Порівнюючи дисперсію даної оцінки з нижньою межею дисперсій незміщених оцінок, можна з’ясувати, наскільки оцінка близька до найкращої можливої. Докладніше.
Нехай вибірка фіксованого обсягу має щільність розподілу .
Параметр будемо вважати одновимірним, а щодо множини його можливих значень припустимо, що вона є скінченим інтервалом числової прямої.
Лема 1.2.1 Якщо майже для всіх існують похідні
і , ,
мажорові інтегрованими функціями:
і виконуються умови
; , ,
то для всіх
Означення. Функцію
(коли вона визначена) називають інформацією за Фішером.
У лемі 1.2.1 наведено достатні умови, за яких інформація існує. Зазначимо, що
Теорема 1.2.1 (нерівність Крамера - Рао). Нехай задовольняються умови леми 1.2.1 і
незміщена оцінка параметра така, що функція
мажоровна інтегрованою функцією:
Тоді (1.2.1)
причому рівність в (1.2.1) досягається тоді і тільки тоді, коли можна подати у вигляді
Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера – Рао перетворюється на рівність, то є ефективною оцінкою параметра .
Наслідок 2. Якщо оцінка задовольняє умови теореми, а статистика - умову
де - щільність розподілу вибірки , то - незміщена й ефективна оцінка параметра .
Наслідок 3. Нехай вибірка з розподілу з щільністю , причому для сумісної щільності
випадкові величини виконані умови теореми. Тоді нерівність Крамера - Рао можна переписати у вигляді
.
1.1 Нерівність Крамера - Рао (розподіл дискретний)
Нерівність Крамера - Рао і твердження, аналогічні наведеним вище, мають місце також тоді, коли розподіл вибірки дискретний, тобто існує не більше ніж злічена множина точок , для яких
Лема 1.2.2 (розподіл дискретний).
Якщо для всіх можливих значень вибірки існують похідні
і , ,
Ряди
і
збігаються абсолютно й рівномірно відносно і виконуються умови
,
то для всіх
1.2 Теорема 1.2.2 (нерівність Крамера - Рао, розподіл дискретний)
Нехай задовольняються умови леми 1.2.2 і - незміщена оцінка параметра така, що для всіх можливих значень вибірки ряд
збігається абсолютно й рівномірно відносно . Тоді
причому рівність справджується тоді, коли можна подати у вигляді
Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера – Рао
перетворюється на рівність, то є ефективною оцінкою параметра .
Наслідок 2. Якщо оцінка задовольняє умови теорем, а статистика - умову
де - розподіл вибірки , то - незміщена й ефективна оцінка параметра .
Наслідок 3. Нехай - вибірка з дискретного розподілу і для сумісного розподілу
випадкових величини виконані умови теореми, тоді нерівність Крамера - Рао можна записати у вигляді
.
1.3 Метод максимальної правдоподібності
Нехай - вибірка із розподілом , що залежить від параметра Параметр невідомий і його необхідно оцінити за вибіркою .
Означення. Функцією максимальної правдоподібності вибірки будемо називати функцію параметра , що визначається рівністю , , якщо вибірковий вектор абсолютно неперервний зі щільністю і рівністю , , якщо вибірковий вектор дискретний з розподілом .
Метод максимальної правдоподібності побудови оцінок полягає в тому, що за оцінку параметра вибирається точка , в якій функція максимальної правдоподібності досягає найбільшого значення.
Означення. Оцінкою максимальної правдоподібності будемо називати точку , в якій функція максимальної правдоподібності досягає найбільшого значення.
Іншими словами, оцінкою максимальної правдоподібності параметра будемо називати відмінні від константи розв’язки рівняння
,
якщо такі розв’язки існують. Корені, які не залежать від вибірки , тобто мають вигляд , де - константа, слід відкинути (оцінка - це функція вибірки).
Логарифм від функції максимальної правдоподібності називають логарифмічною функцією максимальної правдоподібності.
Зазначимо, що функції та досягають найбільшого значення в одній і тій самій точці. А відшукати точку, в якій функція досягає найбільшого значення, часто зручніше.
Якщо функція диференційована по , то для того щоб розв’язати рівняння
(1.3.1)
достатньо знайти стаціонарні точки функції
,
розв’язуючи рівняння
і, порівнюючи значення функції у стаціонарних точках і на межі множини , вибрати точку , в якій функція , досягає найбільшого значення. Ця точка і буде розв’язком рівняння (1.3.1).
Рівняння
називають рівняннями максимальної правдоподібності.
Метод найменших квадратів.
Нехай - незалежні нормально розподілені випадкові величини з однаковою дисперсією
та середніми лінійними по параметру :
де - відомі, не випадкові величини, а - невідомі параметри, які слід оцінити. Кожну випадкову величину можна представити:
де - похибки спостережень та вони всі різні. Відносно припускається:
1) - незалежні випадкові величини, ;
2) ;
3) , , - не корельовані (це означає, що та не пов’язані між собою лінійною залежністю).
;
4) ~.
МНК - оцінкою параметрів називають точку , в якій функція
досягає мінімального значення.
Диференціюємо цю функцію за параметрами :
,
.
Прирівнюємо похідні нулеві:
Розглянемо систему рівнянь:
Виразимо з цієї системи параметри :
,
,
,
,
.
Отже МНК - оцінками параметрів є
,
.
Розділ ІІ. Парадокси в математичній статистиці
2.1 Парадокс оцінок математичного сподівання
2.1.1 Історія парадоксу
Зрівнювання протилежних значень і відхилень в "середньому", тобто підсумовування спостережень до одного значення має давні традиції. Есхіл писав у трагедії "Евменіди": "Богу завжди середина люб'язна, і міру поважає божество", а послідовники китайського філософа Конфуція говорять, що "у нерухомості середнього є найбільша досконалість". Поняття "середнього" можна інтерпретувати в різний спосіб (середнє арифметичне, середнє геометричне, медіана і т. ін). Але у практичних застосуваннях протягом тривалого часу вкрай важливу роль відігравало середнє арифметичне. Вже в перших результатах теорії ймовірностей і математичної статистики вивчалося середнє арифметичне вибірки.
2.1.2 Парадокс
Нехай - реалізація вибірки з розподілу . Розподіл залежить від параметра , що набуває значень з деякої множини можливих значень . Значення параметра в розподілі невідомо, і його необхідно оцінити за реалізацією вибірки .
Якщо за розподіл обрати нормальний розподіл , то оцінка
незміщена, спроможна, ефективна оцінка для параметра . Для розподілу ж , відмінного від нормального, оцінка не є незміщеною оцінкою з найменшою дисперсією.
У цьому і полягає парадокс оцінки математичного сподівання.
2.1.3 Пояснення парадоксу
Нехай - вибірка з нормального розподілу з параметрами . Порахуємо математичне сподівання оцінки :
тому - незміщена оцінка для параметра .
З’ясуємо, чи є спроможною оцінкою параметра , тобто чи збігається за ймовірністю до . Для досить малих маємо:
в силу закону великих чисел. Останнє означає, що є спроможною оцінкою параметра .
Покажемо, що незміщена оцінка з найменшою дисперсією:
.
Умова обертання нерівності Крамера - Рао (дивитися підрозділ 1.2) в рівність говорить, що якщо статистика , така, що
де - щільність розподілу вибірки , то - незміщена й ефективна оцінка параметра .
Обчислимо :
== ==
== ==
=== =
= = ,
тому - ефективна оцінка для параметра .
Розглянемо сім’ю розподілів на , які залежать від параметра і задаються щільністю , .
Кількість інформації за Фішером визначимо
. (2.1.3.1)
За умов, що ми вважаємо, що підінтегральний вираз дорівнює нулеві. Отже,
Теорема 2.1.3.1 (Каган, Лінник, Рао) [1] У класі щільностей , зі скінченою дисперсією , що задовольняють умови
1. - неперервно-диференційована функція. (2.1.3.2)
2. при (2.1.3.3)
нерівність Крамера-Рао обертається на рівність на гауссівському розподілі.
Доведення. Будемо вважати, що
Позначимо множину точок , для яких через .
Оскільки неперервна, то - відкрита множина, і отже, можна подати як об’єднання відкритих інтервалів, що не перетинаються:
.
Інтегрування за частинами дає
,
.
Звідси . (2.1.3.4)
Скористаємось нерівністю Коші - Буняковського для інтегралів
.
Позначимо
, .
Тоді з (2.1.3.4) маємо
.
Отже,
,
.
При цьому знак рівності досягається тоді й тільки тоді, коли при деякій постійній
.
Знайдемо щільність з рівності:
. (2.1.3.5)
Розв’язуючи диференціальне рівняння маємо:
.
Для знаходження сталих скористаємося тим, що (інтеграл від щільності дорівнює 1), (математичне сподівання дорівнює 0), (дисперсія скінчена і дорівнює ).
Розв'язуючи рівняння:
Знаходимо
Отже, маємо щільність нормального розподілу з параметрами :
.
Теорема доведена.
Зауваження 1. Нерівність Крамера - Рао (1.2.1) в теоремі набуває вигляду .
Дійсно, згідно з наслідком 3 з теореми (нерівність Крамера - Рао)
Порахуємо :
Підставляємо в нерівність:
або,
,
або,
Зауваження 2. З одного боку
З іншого боку
.
Знак рівності в нерівності Крамера - Рао досягається тоді й тільки тоді, коли
,
або,
або,
В частинному випадку для щільності , розподілу маємо
2.2 Парадокс Байєса
2.2.1 Історія парадоксу
Томас Байєс, учень де Муавра, є одним з видатних засновників математичної статистики. Його теорема, доведена близько 1750 р. і опублікована лише після його смерті, стала джерелом деяких суперечок в статистиці. Вони не припинилися й досі. Більш того, теоретична прірва між послідовниками байєсівського й антибайєсівського підходів продовжує збільшуватися. Сформулюємо теорему Байєса.
Нехай та - довільні події, які мають імовірності та відповідно. Позначимо через ймовірність перетину подій та , - умовна імовірність події , якщо відомо, що подія відбулася. Якщо події - утворюють повну групу подій, тобто
1) - попарно неперетинні ( ),
2) ,
То
, ,
Остання формула називається формулою Байєса. Вона показує, як за апріорними ймовірностями подій (імовірностями подій відомими до того, як подія відбулася) знайти апостеріорні ймовірності подій (ймовірності подій після того, як подія відбулася).
Сама теорема безперечна, але в більшості її застосувань апріорні імовірності невідомі. В цьому випадку, як правило, вважають, що, оскільки відсутня попередня інформація про події , то усі ймовірності рівні, але такий підхід, взагалі кажучи, неприйнятний.
Байєс використовував свою теорему у випадках, коли апріорні імовірності були випадковими величинами, зокрема, рівномірно розподіленими на інтервалі .
Нехай - випадкова величина зі щільністю
.
Позначимо через - подію, яка полягає у тому, що у випробовуваннях Бернуллі подія відбулась разів, при цьому ймовірність події дорівнює .
Умовна щільність випадкової величини дорівнює
(2.2.1 1)
Де - це умовна ймовірність події за умов, що набуло значення дорівнює
. Тоді
(2.2.1 2)
І ймовірність того, що дорівнює
. (2.2.1 3)
Байєс висунув ідею про те, що якщо ми не маємо ніякої попередньої інформації про , апріорна щільність випадкової величини рівномірна на усьому інтервалі . Наприклад, якщо , , , , то за наведеною вище формулою (2.2.1 3), імовірність того, що більше , дорівнює . Дійсно,
Не всі довіряють цьому результату, зокрема, тому, що мають сумніви щодо рівномірності апріорного розподілу.
Незнання апріорного розподілу виявилось настільки руйнівним для обґрунтування статистичних виводів з теореми Байєса, що ця теорема була майже виключена зі статистичних досліджень. Але в другій третині ХХ століття байєсівський підхід знову здобув розвитку, завдяки важливій ролі, яку він відіграє при пошуку допустимих та мінімаксних оцінок. Все більш розповсюджувалась точка зору про те, що послідовне застосування формули Байєса (коли після кожного експерименту апостеріорні ймовірності переоцінюють і на наступному кроці вони використовуються як апріорні імовірності) знижує роль вихідного апріорного розподілу, оскільки після багаторазового переоцінювання вихідний апріорний розподіл не впливає на заключний апостеріорний розподіл.
(Очевидно, що деякі випадки не розглядаються, наприклад, коли значення дорівнює , а апріорний розподіл рівномірний на відрізку , що не містить точку ).
2.2.2 Парадокс
Нехай можливими значеннями випадкової величини є цілі числа. Припустимо, що ймовірнісний розподіл залежить від параметру , який належить відрізку . Якщо вибірка здобута з невідомого розподілу (розподілу з невідомим параметром ), то послідовність апостеріорних розподілів (які обчислені за вихідним апріорним розподілом)
.
концентрується навколо істинного значення невідомого параметра .
Парадоксально, але це не завжди вірно. Наприклад, істинне значення параметра може дорівнювати , а послідовність апостеріорних розподілів (при збільшенні числа спостережень ) все більше зосереджується, наприклад, біля .
2.2.3 Пояснення парадоксу
Парадоксальність ситуації полягає в тому, що очікується, що функція апостеріорної щільності буде набувати найбільше значення в околі істинного значення , тобто поблизу . Однак це міркування не суперечить тому, що функції апостеріорної щільності можуть усе більш зосереджуватись поблизу . Якщо число можливих значень величини скінченне, то такий випадок неможливий, але коли значеннями можуть бути будь-які цілі числа, парадоксальна ситуація може відбутися.
Нехай апріорний розподіл параметра рівномірний на відрізку . Визначимо функцію на цьому відрізку таким чином, що значеннями завжди є натуральні числа, за виключенням точок та , де . Нехай розподіл випадкової величини (який залежить від ) має вигляд
,
де є константою, для якої
.
При відповідному виборі вказана вище парадоксальна ситуація здійснена. [5]
Найбільшого розповсюдження набули три точкові оцінки параметра .
1. Мода. Оцінка параметра обирається виходячи з максимуму апостеріорної щільності, тобто
(2.2.3.1)
2. Медіана. Оцінка параметра обирається виходячи з рівності
,
або
3. Середнє. Оцінка параметра обирається як математичне сподівання
2.3 Парадокс методу найменших квадратів
2.3.1 Історія парадоксу
Через помилки вимірювань часто здається, що теоретичні формули й емпіричні дані суперечать одне одному. На початку минулого століття Лежандр, Гаус і Лаплас запропонували ефективний метод, що дозволяє зменшити вплив помилок вимірювань. Лежандр розробив і застосував цей метод у 1805 р. для знаходження орбіт комет. Початківцями цієї теорії були Галілей (1632), Ламберт (1760), Ейлер (1778) та інші. Новий метод, названий методом найменших квадратів, детально досліджував Гаус в своїй роботі “Теорія руху небесних тіл" (1809). Саме Гаус вказав на ймовірнісний характер цього методу. Хоча Лежандр і звинувачував Гауса в плагіаті, але він не міг пред’явити для цього достатні підстави. Гаус претендував на пріоритет лише у використанні методу, а не в його публікації. Лаплас опублікував свою основну роботу з теорії ймовірностей в 1812 р., присвятивши його “великому Наполеону”. Протягом всієї четвертої глави його роботи йде викладення числення похибок. З того часу метод найменших квадратів розвинувся в новий розділ математики.
Можливості методу часом переоцінюють і часто використовують тоді, коли інші методи підходили б більше. На цю проблему звертав увагу ще Коші (1853) під час “дебатів” з Бєнеме.
2.3.2 Парадокс
Нехай - вибірка, утворена незалежними випадковими величинами зі щільністю
,
Ми маємо можливість спостерігати . За результатами спостережень необхідно оцінити невідомий параметр (параметри a, b вважаємо відомими). Оцінка параметра за методом найменших квадратів дорівнює
. (2.3.2.1)
Оцінка параметра за методом максимальної правдоподібності дорівнює
(2.3.2.2)
Оцінка параметра за МНК - методом не збігається з оцінкою, здобутою за методом максимальної правдоподібності.
Яка з них краще?
2.3.3 Пояснення парадоксу
Спочатку знайдемо оцінку параметра МНК - методом.
МНК - оцінкою параметра називають точку, в якій функція
(2.3.3.1)
досягає найменшого значення.
Обчислимо :
Порахуємо кожен інтеграл окремо:
перший інтеграл дорівнює
;
другий інтеграл дорівнює
;
третій інтеграл дорівнює
;
четвертий інтеграл дорівнює
.
Тоді маємо
.
Підставляємо в формулу (2.3.3.1):
.
Візьмемо похідну від функції по параметру :
.
Прирівнюємо похідну нулеві:
, .
Звідси знаходимо оцінку для параметра :
.
Знайдемо оцінку параметра за методом максимальної правдоподібності. [4] Випишемо функцію максимальної правдоподібності
.
Функція набуває максимального значення за умови, що набуває мінімального значення.
Нехай варіаційний ряд послідовності .
Розглянемо два випадки: n=2k-1; n=2k.
Нехай n=2k-1. На кожному з проміжків функція
лінійна. Причому на проміжку , , спадає (кутовий коефіцієнт - коефіцієнт при - від’ємний), і на кожному з проміжків , зростає. Отже, найменше значення неперервна функція досягає в точці . Нехай n=2k. Тоді на кожному з проміжків , …, , функція спадає, на проміжку - постійна і на , …,, зростає. Отже, найменше значення функція досягає в кожній точці проміжку .
Отже, за методом максимальної правдоподібності оцінкою параметра
є
Якщо - результати спостережень - розподілені нормально (щільність розподілу має вигляд , ), то згідно з МНК - методом та методом максимальної правдоподібності оцінкою параметра є
.
В методі найменших квадратів Гаусс виходив з припущення про нормальний розподіл похибок (і відповідно результатів спостережень), що на практиці зустрічається дуже часто. Якщо відомо, що розподіл похибок відмінний від нормального, використовувати МНК - метод для оцінювання параметрів не рекомендують. У вказаному вище парадоксі вживання оцінки більш виправдано.
Використовуючи стандартні поняття математичної статистики, парадокс можна коротко сформулювати наступним чином: оцінка за методом найменших квадратів не завжди збігається з оцінкою максимальної правдоподібності. Дійсно, якщо - додатна щільність, напівнеперервна знизу в точці ; - щільність розподілу вимірювань і є оцінка максимальної правдоподібності параметра для , то є щільністю нормального розподілу з нульовим середнім. Це - закон Гауса про похибки, який можна довести наступним чином: якщо припустити для простоти, що існує похідна , і добуток максимальний за умови, що , то
,
тобто (позначаючи ) з рівності випливає , що можливо при лише тоді, коли ; звідки випливає, що , де і - додатні числа (інакше функція не була б щільністю).
Таким чином, оцінка параметра зсуву за методом найменших квадратів збігається з оцінкою максимальної правдоподібності лише для нормальних розподілів.
2.4 Парадокс оцінок дисперсії
2.4.1 Історія парадоксу
Найважливішою характеристикою випадкових величин і їх розподілів разом з математичним сподіванням є дисперсія.
Нехай вибірка з розподілу . Якщо дисперсія розподілу скінчена, то при відомому математичному сподіванні розподілу вибіркова дисперсія
є незміщеною оцінкою дисперсії . Дійсно,
.
Ситуація змінюється, коли математичне сподівання розподілу невідоме і за оцінку математичного сподівання розглядається оцінка
.
Тоді вибіркова дисперсія
вже не є незміщеною оцінкою. Дійсно,
.
Оцінка є асимптотично незміщеною оцінкою для .
Оскільки незміщеність - одна з необхідних властивостей, яку повинна мати добра оцінка, змінимо оцінку так, щоб одержати незміщену оцінку для , а саме: помножимо на множник і позначимо нову оцінку :
.
Оцінка незміщена оцінка для [2]. Дійсно,
Проте парадокс оцінок дисперсії говорить про те, що не завжди треба обмежуватися розглядом лише незміщених оцінок. Іноді оцінка з малим зміщенням і малою мірою розсіювання значень оцінки краще незміщеної оцінки з великою дисперсією.
2.4.2 Парадокс
Нехай - вибірка з нормального розподілу . Оцінка
є незміщеною оцінкою для , а оцінка
для така, що міра розсіювання оцінки відносно мінімальна. Отже, вимоги незміщеності і мінімуму міри розсіювання приводять до різних оцінок. Якій з оцінок віддати перевагу?
2.4.3 Пояснення парадоксу
Розглянемо клас оцінок [6]. Математичне сподівання оцінок дорівнює . В класі оцінок існує єдина незміщена оцінка, яка відповідає і ця оцінка , тобто . Порахуємо міру розсіювання оцінок відносно :
Згідно з теоремою про розподіл оцінок і параметрів нормального розподілу випадкова величина має - розподіл з ступенями вільності. Тоді при
,
Звідки
і
.
Тоді перепишеться:
.
Позначимо функцію від через
.
Знайдемо , при якому функція досягає найменшого значення:
,
,
,
.
При цьому
,
і
,
а
.
Одержуємо нерівність
.
Таким чином, на підставі вимоги мінімуму міри розсіювання оцінки зміщена оцінка
,
зміщення якої
мале при достатньо великому обсязі вибірки , краще оцінює дисперсію , ніж незміщена оцінка .
Цей парадокс показує, що не може бути єдиного критерію, за яким необхідно порівнювати всі оцінки, як не існує єдиної оцінки даного параметра , яка прийнятна для всіх випадків.
Зауваження. Вибіркова дисперсія
при відомому математичному сподіванні є ефективною оцінкою для . Оцінка ж не є ефективною оцінкою для . Ефективної оцінки для (при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.
2.5 Парадокс кореляції
2.5.1 Історія парадоксу
До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин і кореляція визначається таким чином. Нехай і , і позначають математичне сподівання і стандартне відхилення і відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для і визначається формулою
(2.5.1.1)
Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між і існує лінійна залежність, тобто . Якщо і незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції , як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою так:
(2.5.1.2)
У ряді випадків добре описує зв'язок між і , але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для і може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.
2.5.2 Парадокси
2.5.2.1 Нехай випадкова величина рівномірно розподілена на інтервалі і . Очевидно, що між і існує тісний зв'язок, проте їх кореляція . (Кореляція для і завжди дорівнює нулеві, коли - випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)
2.5.2.2 Нехай - величини температуру в кімнаті в різних моментів часу і - кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для і У строго додатна.
Проте кореляція може виявитися від’ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.
2.5.2.3 Нехай випадковий вектор розподілений нормально, тобто щільність має вигляд
де - математичне сподівання і дисперсія величин і , а - їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції ми можемо оцінити її за допомогою
,
використовуючи вибіркових значень. Якщо і відомі, то доцільно у формулі для замінити і відповідно на і . Таким шляхом отримаємо нову оцінку
.
Оскільки використовує більше інформації (а саме, значення величин і ) можна було б чекати, що дисперсія в менше, ніж в .
Проте А. Стюарт обчислив, що
тоді як
таким чином, остання дисперсія більша.
2.5.3 Пояснення парадоксів
2.5.3.1 Якщо і незалежні, то , але обернене твердження, взагалі кажучи, не вірне. Не корельовані випадкові величини можуть бути залежні, наприклад, як у вказаному вище прикладі, коли . Тому "некорельованість" не слід розуміти як незалежність.
2.5.3.2 Не можна забувати про вплив температури поза кімнатою! Кореляції часто виходять абсолютно неймовірними тому, що обчислюваний коефіцієнт кореляції для двох випадкових величин викривляється третьою що "ззовні впливає". Якраз для того, щоб уникнути цих перешкод, було введено поняття частої кореляції. Якщо кореляція для і У обчислюється лише після того, як вплив величини виключено, то результат перестає бути парадоксальним. Нехай і позначають кореляції і лінійними випадковими величинами та У, та , У та відповідно. Тоді частинна кореляція для і У без впливу дорівнює
У частковому випадку, коли часткова кореляція для і збігається з кореляцією . Коли і невідомі, їх можна оцінити за вибіркою аналогічно тому, як це відбувалося для . За допомогою цих оцінок отримаємо оцінку коефіцієнта частинної кореляції.
2.5.3.3 Парадокс Стюарта можна розглядати з різних точок зору. Головне полягає в тому, що оцінки і не є незміщеними оцінками для , тобто рівність і невірні, тому недоцільно вважати кращою ту оцінку, в якої дисперсія менша.
Мал.2.5.3.3.1 Розглянемо випадкові величини як вектори. Тоді кореляція для випадкових величин і дорівнює косінусу кута між векторами і , а їх частинна кореляція - косінусу кута між проекціями цих векторів на площину, перпендикулярну вектору .
У той же час обидві оцінки і зміщені несильно (вони є асимптотично незміщеними), отже, для пояснення парадоксу потрібний додатковий аналіз.
2.5.4 Зауваження
Зсув оцінки (у випадку двовимірного нормального розподілу) дорівнює
де позначає вираз, який множенням на , збігається до 0. Таким чином, зсув достатньо швидко прямує до 0 (при збільшенні обсягу вибірки ). З іншого боку, цікаво відзначити, що є незміщеною оцінкою для і, якщо для деякої функції , незалежної від , то , де - довільні сталі. У 1958 р. І. Олкін і Дж. Пратт довели що, якщо оцінка коефіцієнта кореляції явно залежить від , то можна вказати незміщену оцінку для , а саме
де - гіпергеометрична функція, яка визначається формулою
,
де є параметрами. А серед незміщених оцінок вже слід віддати перевагу тим, в яких дисперсія мінімальна. Можна показати, що оцінка не лише є незміщеною, але і має найменшу дисперсію. Проте для практичних застосувань оцінка достатньо складна, тому рекомендується використовувати її апроксимацію
.
2.6 Парадокси регресії
2.6.1 Історія парадокса
Коефіцієнт кореляції описує залежність між двома випадковими величинами одним числом, а регресія виражає цю залежність у вигляді функціонального співвідношення і тому дає більш повну інформацію. Наприклад, регресією є середня вага тіла людини як функція від його зросту. Поняття "регресія" запровадив Гальтон, який у кінці минулого століття порівнював зріст батьків зі зростом їх дітей. Він виявив, що зріст дітей у високих (або низьких) батьків звичайно вище (або нижче) середнього, але не співпадає зі зростом батьків. Лінія, яка показує, у якій мірі зріст (та інші характеристики) регресують (відновлюються) у середньому у наступних поколіннях, була названа Гальтоном лінією регресії.
Мал.2.6.1. Лінія регресії Гальтона.
Пізніше регресією стали називати будь-яку функціональну залежність між випадковими величинами. Спочатку регресійний аналіз застосовувався у біології і найважливішим науковим журналом, у якому висвітлювалась ця тема, був журнал "Біометрика" (“Biometrika”), який виходив з жовтня 1901 р. Між 1920 та 1930 р. великого значення набуло використання регресійного аналізу у економіці та виникла нова галузь науки: економетрика (термін належить Р. Фрищу (1926), який пізніше отримав Нобелевську премію). Від вивчення часткових регресійних задач дослідники поступово перейшли до регресійного аналізу структури, яка властива глобальним економічним системам. (Дж. Кейнс, Я. Тінберг та інші, наприклад, Р. Клейн, якому у 1980 р. присуджена Нобелевська премія з економіки).
Журнал "Технометрика" (“Technometrics”) виходить з 1959 р. і в основному присвячений технічним додаткам. Регресійний аналіз величини , визначається за іншою величиною , коли важко вимірити, а достатньо легко, досить важливий.
2.6.2 Парадокси
Припустимо, що залежність двох величин виражається функцією наступного вигляду , (наприклад, ), де невідомі тільки параметри (а функція відома, наприклад, лінійна квадратична і т.д.). Якщо ми можемо виміряти значення тільки з випадковими похибками спостережень, тобто замість ми спостерігаємо значення , які схильні до помилок, то згідно з методом найменших квадратів оцінки невідомих параметрів мінімізують суму квадратів
2.6.2.1 Якщо , то оцінка параметра мінімізує суму квадратів
(2.6.2.1 1)
У цьому випадку задача обчислення рівняння регресії звичайно спрощується, якщо обчислити логарифм від обох членів різниці, які знаходяться у дужках, і мінімізувати таку суму квадратів
(2.6.2.1 2)
Але ці два підходи до мінімізації дають різні оцінки. Який вихід з цієї парадоксальної ситуації?
2.6.2.2 Припустимо, що тип функції можна обрати різними способами, наприклад, - це багаточлен, а - експоненціальна функція. Оберемо той тип, для якого вказана вище сума квадратів менша (при оптимальному виборі параметрів). Хоча цьому принципі часто віддають перевагу на практиці, звичайно він не виправданий (іноді необхідно встановлювати хоча б теоретичну можливість такого вибору).
2.6.2.3 Нехай - теоретична лінія регресії та , де () - незалежні нормально розподілені похибки з математичним сподіванням і дисперсією ( - невідома константа). Тепер припустимо, що спостереження ідеально погоджуються з лінією регресії, тобто для деякого та
Тоді оцінка параметра за методом найменших квадратів дорівнює , але, як не парадоксально, вона не є "найкращою" оцінкою (у сенсі максимальної правдоподібності).
2.6.3 Пояснення парадоксів
2.6.3.1 Методу найменших квадратів відповідає перша сума квадратів. Розглянемо мінімізацію суми квадратів
де - монотонно зростаюча функція (наприклад, ). Добрий вибір "лінеаризує" задачу, тобто вираз для є лінійною функцією від невідомих параметрів (у цьому випадку легко знаходяться оптимальні значення для ). Якщо ми хочемо визначити невідомі параметри , користуючись методом найменших квадратів, то ймовірно, краще обрати другий спосіб. Але іноді треба мінімізувати все ж вихідну суму, наприклад, коли відомо, що наслідком помилки є фінансові втрати, пропорційні цій сумі, хоча така ймовірність зовсім не типова.
2.6.3.2 Перша частина питання дуже проста: сума квадратів може виявитися менша для , ніж для , але якщо взяти більше вибіркових значень, то сума квадратів стає менша при виборі .
Математична статистика намагається уникати подібних нестійких ситуацій. Існує декілька методів прийняття рішень, які застосовні у ряді випадків і вказують вибір із заданою надійністю, наприклад, 99% (тобто функція відкинута, то ймовірність того, що вірним є вибір , дорівнює 1%).
2.6.3.3 Оцінка не підходить, оскільки тоді оцінка для дорівнювала б нулю, що суперечить умові
.
Більш виправданою буде оцінка (максимальної правдоподібності)
.
2.7 Парадокси достатності
2.7.1 Історія парадоксу
Достатність є одним з найважливіших понять в математичній статистиці. Поняття достатності введено Р. Фішером в 20-х роках XX століття. Він виходив з того, що для статистичного оцінювання невідомих параметрів не завжди треба знати всі елементи вибірки. Достатньо знати деякі функції від вибірки, які й називаються достатніми статистиками. Наприклад, в разі одновимірного нормального розподілу вся інформація про його математичне сподівання зосереджується в середньому арифметичному елементів вибірки . Це випливає з того факту, що розподіл випадкового вектора не залежить від невідомого математичного сподівання, і тому із знання випадкових величин ми не отримаємо про математичне сподівання жодній додатковій інформації.
Означення. Функції
називаються достатньою статистикою для параметра розподілу, загального для всіх випадкових величин , якщо спільний розподіл величин при фіксованих не залежить від .
Спільна умовна щільність незалежних випадкових величин при дорівнює
,
(де через позначають стандартне відхилення величини ), і ця щільність не залежить від .
2.7.2 Парадокс
У 1934 р. Фішер вказав на такий парадокс. Він вивчав двовимірний нормальний розподіл, координати якого були (для простоти) незалежними випадковими величинами з одиничною дисперсією. Невідомими були лише їх математичні сподівання. Середнє арифметичне двовимірної вибірки є достатньою статистикою для невідомої пари математичних сподівань. Припустимо, що відома відстань між математичним сподіванням (що розглядається як вектор) і початком координат, тобто нехай, наприклад, дорівнює 3. Тоді
де - єдиний невідомий параметр. Його можна оцінити величиною
.
Ця оцінка незміщена
,
і її дисперсія дорівнює
.
Легко довести, що розподіл величини
не залежить від (оскільки розподіл вектора сферично симетричний відносно точки ), отже, якщо ми братимемо до уваги , то через достатність не отримаємо жодної інформації про . Проте це зовсім невірно. Математичне сподівання випадкової величини (тобто ефективність оцінки) в значній мірі визначається . Наприклад,
і
2.7.3 Пояснення парадоксу
Парадокс Фішера вказує на те, що слова “володіти всією інформацією" можна розуміти по різному. При обчисленні ефективності допоміжні статистики (аналогічні ) можуть грати важливу роль. На жаль, далеко не завжди легко вирішити, що саме слід взяти за допоміжну статистику. Очевидно, не має сенсу брати за таку статистику всю вибірку. Якщо розглянути проблему Фішера з точки зору байєсівського підходу і припустити, що випадкова величина рівномірно розподілена в інтервалі , то
2.7.4 Зауваження
Сучасна теорія достатності розвинена у роботах П. Халмоша і Л. Дж. Севіджа (1949). В теорії достатності з’явився ряд цікавих парадоксів. Наприклад, Беркхолдер запропонував кілька прикладів, які показують, що додавання до достатніх статистик деякої додаткової інформації може зіпсувати достатність. Такі приклади повністю суперечать нашим уявленням про достатність. За останній час опубліковано кілька глибоких праць, де вводяться деякі “умови регулярності”, які забезпечують не парадоксальну поведінку достатніх статистик.
2.8 Парадокси методу максимальної правдоподібності
2.8.1 Історія парадоксу
Метод максимальної правдоподібності є одним з найбільш ефективних методів оцінювання невідомих параметрів. Він здобув поширення в двадцяті роки нашого століття завдяки роботам англійського статистика Р. Фішера. І хоча у Фішера були попередники, саме його робота, написана в 1912 р., зіграла в цьому вирішальну роль. Нехай у ймовірнісного розподілу (залежного від невідомого параметра ) існує щільність, яку позначимо через . Якщо елементи вибірки незалежні, то їх спільна щільність запишеться у вигляді .
Нехай числа - вибіркові значення. Тоді є оцінкою максимальної правдоподібності параметра , якщо максимізує добуток як функцію від (припустимо, що максимум існує й єдиний). В разі дискретних випадкових величин максимізуємо спільний розподіл .
Якщо ми оцінюємо за методом максимальної правдоподібності, то ймовірність того, що спостерігатимуться значення стає максимальною.
Оцінка максимальної правдоподібності володіє низкою добрих властивостей, і тому відповідний метод набув широкого поширення. Наприклад, якщо є оцінкою максимальної правдоподібності параметра , то - оцінка максимальної правдоподібності для .
Можна також довести, що за достатньо загальних умов оцінка максимальної правдоподібності асимптотично поводиться як нормально розподілена випадкова величина з середнім значенням і дисперсією , отже, - спроможна оцінка, і її дисперсія асимптотично мінімальна (тобто сама оцінка асимптотично ефективна).
Більш того, якщо достатня статистика існує, то метод максимальної правдоподібності приведе до функції від цієї достатньої статистики.
2.8.2 Парадокси
2.8.2.1 Нехай - незалежні випадкові величини, рівномірно розподілені на інтервалі . Оцінка максимальної правдоподібності невідомого параметра дорівнює . Трохи змінивши її, отримаємо
,
незміщену оцінку для з дисперсією
.
З іншого боку, дисперсія оцінки
асимптотично еквівалентна , отже, ця оцінка більш ефективна, ніж оцінка максимальної правдоподібності.
2.8.2.2 Наведемо простий приклад, який показує, що оцінка максимальної правдоподібності не завжди спроможна. Нехай - множина раціональних чисел між , а В - деяка зліченна множина ірраціональних чисел між . Припустимо, що значеннями незалежних елементів вибірки є тільки , причому значення 1 набувається з імовірністю , якщо - елемент множини А, і з імовірністю , якщо - елемент В. Тоді оцінка максимальної правдоподібності для не є спроможною. Хоча дещо складніша спроможна оцінка для все ж існує.
2.8.3 Пояснення парадоксів
2.8.3.1 Статистики
в сукупності містять всю інформацію про параметр ; точніше, при заданих і спільна щільність ймовірностей величин не залежить від (тобто і в сукупності утворюють достатню статистику). Таким чином, природно вважати, що як оцінка максимальної правдоподібності, так і оцінка, яка виявилась кращою, залежать лише від і . Оскільки оцінка максимальної правдоподібності залежить тільки від статистики , яка не є достатньою (вона не містить всю інформацію про ), недивно, що знайшлася краща оцінка. Це не суперечить асимптотичній ефективності оцінки максимальної правдоподібності, оскільки у випадку рівномірного розподілу “загальні умови", які забезпечують ефективність, не виконані.
2.8.3.2 Пояснення досить просте: оцінка максимальної правдоподібності для є частота , яка прямує до для ірраціональних .
Нехай
1. , якщо , тобто ,
2. , якщо , тобто .
,
Розглянемо (1) випадок.
, . (2.8 3.2.1)
Логарифмуємо вираз (2.8 3.2.1):
. (2.8 3.2.2)
Беремо частинну похідну за параметром :
. (2.8 3.2.3)
Приводимо подібні доданки:
, .
- оцінка максимальної правдоподібності для , якщо .
Знаходимо математичне сподівання оцінки :
(2.8 3.2.4)
Для будь-якого
:
- спроможна оцінка для параметра , .
Розпишемо аналогічно для другого випадку.
, . (2.8 3.2.5)
Логарифмуємо вираз
.
Беремо частинну похідну за параметром :
. (2.8 3.2.6)
Приводимо подібні доданки:
, .
- оцінка максимальної правдоподібності для , якщо
: .
Знаходимо математичне сподівання оцінки :
,
- незміщена оцінка для параметра , якщо
Для будь-якого :
.
- спроможна оцінка для параметра , для .
Оцінка для параметра у випадках та різні:
, якщо
І , якщо .
2.9 Парадокс інтервальних оцінок
2.9.1 Історія парадоксу
Теорія інтервального оцінювання була розроблена Г. Фішером і Д. Нейманом між 1925 і 1935 роками. Довірчий інтервал Неймана містить невідомий параметр зі заданою ймовірністю . Нехай - вибіркові значення, і припустимо, що і такі, що
.
тоді інтервал називається довірчим інтервалом з коефіцієнтом надійності для . Якщо невідоме математичне сподівання нормального розподілу зі стандартним відхиленням , то
,
тобто є довірчим інтервалом для з коефіцієнтом надійності 0.95%. При іншому підході до інтервального оцінювання випадковим параметром не вибірка, а невідомий параметр . В цьому випадку інтервал не залежить від вибіркових значень, і рівність
просто означає, що потрапляє в інтервал з ймовірністю . Наприклад, якщо - невідоме математичне сподівання нормального розподілу, то через випадкові помилки вимірювань не визначається повністю вибірковим середнім .
Такий параметр можна розглядати як нормально розподілену випадкову величину з математичним сподіванням і стандартним відхиленням . Отже,
.
Такий вигляд інтервальних оцінок, які називають фідуціальними інтервалами, введено Фішером. У випадку нормального розподілу, як ми бачимо, довірчі і фідуціальні інтервали формально збігаються; відрізняється лише їх "філософія". На протязі деякого часу вважали, що ці два види інтервалів практично збігаються, і суперечки про відмінність між довірчими і фідуціальними інтервалами є чисто теоретичними. Проте незабаром виявилися парадокси, що мають практичне значення. Різні підходи Фішера і Неймана привели і до різних результатів в практичних застосуваннях. У 1959 р. К. Стейн вказав на надзвичайно парадоксальний випадок. Для простоти він розглянув довірчі і фідуціальні інтервали, в яких або тому, що такі інтервали визначаються одним значенням (іншими кінцем інтервалу).
2.9.2 Парадокс
Нехай - незалежні нормально розподілені випадкові величини з одиничною дисперсією. Позначимо через їх математичне сподівання. Нехай вектор знаходиться на відстані
від початку координат к Стейн довів, що фідуціальний і довірчий інтервали для можуть суттєво відрізнятися. Оцінимо кожне відповідним середнім значенням вибірки обсягу . Нехай відстань між початком координат і вектором вибіркових середніх дорівнює
.
Тоді
,
якщо - випадкова величина (будується довірчий інтервал) і яке б не було значення невідомого параметра .
З іншого боку, якщо - випадкова величина (будується фідуціальний інтервал), то
для будь - якого вибіркового середнього . Іншими словами, ймовірність того, що довірчий інтервал містить невідоме значення , більша 50%; в той же час з імовірністю, більшою 50%, випадкова величина знаходиться в (фідуціальному) інтервалі . Таким чином, з точки зору теорії довірчих інтервалів краще ставити на нерівність, а при фідуціальному підході ситуація прямо протилежна.
2.9.3 Пояснення парадоксу
Неможливо показати всі протиріччя між фідуціальним підходом і теорією довірчих інтервалів, які виникають у зв’язку з задачею Стейна. Якщо фідуціальний підхід застосовується не до елементів вибірки, заданими своїми координатами, а (через сферичну симетрію нормального розподілу) до сум квадратів координат, то фідуціальні інтервали співпадають з довірчими інтервалами. Отже, вигідніше ставити на те, що " більше, ніж ".
2.9.4 Зауваження
2.9.4.1 Побудуємо інтервальну оцінку для невідомого математичного сподівання нормального розподілу з відомим стандартним відхиленням , використовуючи апріорну інформацію про те, що величина нормально розподілена з математичним сподіванням і стандартним відхиленням (ці величини відомі).
Якщо - середнє значення вибірки об’єму , то за теоремою Байєса апостеріорний розподіл величини також нормальне з математичним сподіванням
і стандартним відхиленням D, де
Отже, є 95% інтервальною оцінкою для , оскільки
.
Відсутність апріорної інформації значить, що , тобто . Таким чином,
це і є фідуціальний інтервал. Отже, у випадку многовимірного нормального розподілу байєсівський підхід приводить до того ж самого парадоксу, що і фідуціальний підхід.
2.9.4.2 Нехай нам треба оцінити параметр зсуву за вибіркою , елементи якої мають показникові щільність розподілу (якщо і 0 в супротивному разі). Оцінка
незміщена, і її щільність розподілу пропорційна при . За допомогою цієї щільності можна легко знайти 90% довірчий інтервал найменшої довжини. У випадку, коли цей довірчий інтервал має вигляд .
З іншого боку , очевидно, менше, ніж .
Таким чином, 90% довірчий інтервал найменшої довжини знаходиться в області, в якій знаходитися не може! Джейнес підкреслив, що для побудови інтервальної оцінки слід скористатися байєсівським підходом. Якщо апріорна щільність є сталою, то апостеріорна щільність величини буде , якщо і 0 в протилежному випадку. Таким чином, інтервал
,
де
,
задає найменшу апостеріорну зону, яка містить апостеріорну ймовірність з ймовірністю . Для вказаної вище вибірки отримаємо .
З точки зору теорії довірчих інтервалів можна було б сказати, що не є достатньою статистикою для , а статистика - достатня. Довірчий інтервал найменшої довжини, побудований за достатньою статистикою, співпадає з байєсівським інтервалом, побудованим вище. Але навіть, якщо ми працюємо з , може виявитися, що 90% довірчий інтервал лежить на від’ємній піввісь, а нам відомо (апріорна інформація), що величина не може бути негативною.
2.10 Парадокс - критерію Стьюдента
2.10.1 Історія парадокса
У класичній теорії математичної статистики припускається, що вибіркові значення (спостереження) заздалегідь відомі. В основі одного з важливіших напрямків сучасної статистики лежить розуміння того, що не треба фіксувати заздалегідь обсяг вибірки, його слідує визначати в залежності від результатів більш ранніх спостережень. Таким чином, обсяг вибірки випадковий. Ця ідея послідовного вибору поступово розвивалася у роботах Г. Доджа та Г. Роміга (1929 р), П. Махалонобіса (1940 р), Г. Хотеллінга (1941 р) та У. Бєрткі (1943 р), але дійснім засновником теорії послідовного аналізу в математичній статистиці є А. Вальд (1902-1950). Його послідовний критерій відношення правдоподібності (1943 р) став важливим відкриттям, яке дозволило (у типових ситуаціях) на 50% зменшити середню кількість спостережень (за тих же умов помилок). Не дивно, що в роки другої світової війни відкриття Вальда було оголошено "секретним". Його основна книга "Послідовний аналіз" опублікована лише у 1947 р. Рік потому Вальд та Дж. Волфовіц довели, що методи, які відрізняються від послідовного критерію правдоподібності, не дають такого зменшення числа елементів вибірки. Але і в цій області виявились парадокси. Розглянемо парадокс, який належить К. Стейну, хоча цей парадокс відноситься до двохшагових критеріїв, а не до послідовних.
2.10.2 Парадокс
Нехай - вибірка незалежних нормально розподілених випадкових величин з спільним невідомим математичним сподіванням та спільним невідомим стандартним відхиленням . На основі цієї вибірки будемо розрізнювати наступні нульову та альтернативну гіпотези. Нульова гіпотеза полягає у тому, що (де - деяке задане число), а альтернативна - у тому, що . Нехай
і
Такі гіпотези та розрізняють за допомогою - критерію Стьюдента. Згідно - критерію нульова гіпотеза не відхиляється або відхиляється в залежності від того, близько значення до 0 чи ні. У 1940 р.Г. Данциг показав, що при заданій ймовірності помилки 1-го роду ймовірність помилки 2-го роду для будь - якого вирішального правила залежить від невідомого стандартного відхилення . Парадоксально, але через 5 років К. Стейн довів, що якщо обсяг вибірки не фіксувати заздалегідь, а визначати по вже отриманим елементам вибірки (як у послідовному аналізі Вальда), то існує - критерій, для якого (при заданій імовірності помилки 1-го роду) імовірність помилки 2-го роду не залежить від невідомого стандартного відхилення (а залежить лише від різниці ).
2.10.3 Пояснення парадоксу
На першому кроці візьмемо вибірку , де - деяке фіксоване число. Вибіркова дисперсія визначається формулою
Припустимо, що обсяг вибірки залежить від величини та заздалегідь фіксованого числа наступним чином:
де дужки означають цілу частину дійсного числа. Оберемо додатні числа так, що
, та ,
та спробуємо розрізнити гіпотези та за допомогою статистики
де
Очевидно, що при заданому випадкова величина нормально розподілена з математичним сподіванням та дисперсією З іншого боку розподіл величини (для довільного ) збігається з розподілом суми квадратів незалежних стандартних нормальних випадкових величин (тобто з хі-квадрат розподілом ), який не залежить від . Отже, розподіл величини також не залежить від , тому залежить лише від , але не від .
2.10.4 Зауваження
2.10.4.1 Розподіл випадкової величини не є нормальним, оскільки не число, а випадкова величина. (Якщо б значення стандартного відхилення було б відомим, та ми б поставили це значення замість , то розподіл випадкової величини було б стандартним нормальним) Це чудове спостереження та аналіз випадкової величини у 1908 р. опублікував Стьюдент, він же Уїльям Д. Госсет. (З 1899 р. він працював у Дубліні на пивоварному заводі Гіннесса, і його начальник наполіг на тому, щоб Госсет писав під псевдонімом) Досить довго ніхто не усвідомлював важливості статті Стьюдента. (Навіть у 1922 р.Р. Фішер був єдиним, як стверджував Стьюдент, хто використовував - розподіл. У дійсності, саме Фішер вперше позначив розподіл Стьюдента через у своїй книзі, яка вийшла у 1925 р. сам Стьюдент використовував символ , проте не для позначення величини , а для )
2.10.4.2 Визначення моменту зупинення спостережень у послідовному аналізі є суттю сучасної теорії оптимальних зупинок для різних процесів. Розглянувши вибірку як процес, ми встановлюємо зв'язок між математичною статистикою і теорією стохастичних процесів.
2.11 Парадокс перевірки гіпотез
2.11.1 Історія парадоксу
Б.В. Гнеденко в своїй книзі відмічає, що облік населення, проведений в Китаї у 2238 р. до нашої ери, показав, що доля новонароджених хлопчиків складала 50%. Джон Арбутнот (1667-1735), англійський математик, лікар і письменник, був першим, хто (це було в 1710 р) відмітив, що гіпотеза про рівне співвідношення народжених хлопчиків і дівчаток повинна бути відхилена, оскільки за демографічними даними за 82 роки (доступні на той час) хлопчиків щороку народжувалося більше, ніж дівчаток. Якби ймовірність народження хлопчика дорівнювала , то результат за 82 роки був би настільки малоймовірним , що його можна було б вважати практично неможливим. Отже, Арбутнот був першим, хто відхилив природню статистичну гіпотезу. Цей нематематичний парадокс зацікавив Лапласа. У 1784 р. він зі здивуванням виявив, що в декількох різних районах Франції доля новонароджених хлопчиків приблизно дорівнювала , а у Парижі це відношення дорівнювало . Лаплас був заінтригований такою різницею, але скоро знайшов для неї розумне пояснення: в загальну кількість новонароджених в Парижі включалися всі підкинуті немовлята, а населення передмість в більшості підкидало немовлят однієї статі. Коли Лаплас виключив підкинутих немовлят з загальної кількості, доля новонароджених хлопчиків стала близькою до .
У 1734 р. Французька академія присудила Данилу Бернуллі премію за дослідження по орбітам планет. За допомогою деякого критерію перевірки гіпотез Бернуллі намагався довести, що схожість орбіт планет є далеко не випадковою. З правила правої руки зрозуміло, що кожній орбіті відповідає деяка точка на одиничній сфері, і Бернуллі перевіряв гіпотезу про те, що розподіл цих точок на одиничній сфері рівномірний. У 1812 р. Лаплас досліджував схожу проблему. Він намагався застосувати статистичні методи для вирішення питання про те, яку з гіпотез слід прийняти: чи є комети звичайними елементами Сонячної системи, чи вони всього лиш “незвані” гості. В останньому випадку кути між орбітами планет і екліптою були б рівномірно розподілені на інтервалі від до . Лаплас виявив, що комети не є звичайними елементами Сонячної системи. Основоположниками сучасної теорії перевірки статистичних гіпотез були К. Пірсон, Е. Пірсон, Р. Фішер і Є. Нейман.
Припустимо, що треба перевірити гіпотезу про те, що розподілом деякої випадкової величини є . (У проблемі Лапласа розподіл був рівномірним на інтервалі ) Для вирішення цієї проблеми “міри узгодженості” К. Пірсон, Х. Крамер, Р. фон Мізес, А.М. Колмогоров, М.В. Смірнов та інші вчені, які працювали пізніше, запропонували кілька різних критеріїв, і виникла потреба порівнювати їх ефективності. Перші кроки до знаходження кращих методів прийняття рішень зробили Е. Пірсон і Є. Нейман. По-перше, вони ввели поняття альтернативної гіпотези, яка, взагалі кажучи, не є повним запереченням основної, нульової гіпотези. Розглянемо, наприклад, випадкову величину, що має нормальний розподіл з одиничною дисперсією і невідомим математичним сподіванням. Якщо нульова гіпотеза полягає в тому, що “математичне сподівання дорівнює ", а альтернативна - в тому, що “математичне сподівання дорівнює ", то обидві гіпотези, очевидно, не охоплюють всі можливі випадки. В 1933 р. Нейман і Пірсон показали, що для таких простих гіпотез (коли як нульова, так і альтернативна гіпотези визначаються одним розподілом) існує критерій, найбільш потужний в такому розумінні. При використанні статистичних критеріїв можливі помилки двох видів. Можна відхилити нульову гіпотезу, коли вона вірна, і припуститися помилки 1-го роду. З іншого боку, можна прийняти нульову гіпотезу, коли вона невірна, і припуститися помилки 2-го роду. Метод прийняття рішень (критерій), який базується на вибірці заданого об’єму, називається найбільш потужним критерієм, якщо для будь-якої заданої ймовірності помилки 1-го роду ймовірність помилки 2-го роду мала настільки, наскільки це можливо. (Зауважимо, що при фіксованому об’ємі вибірки сума ймовірностей помилок обох родів не може бути зробленою наскільки завгодно малою. Це є свого роду принципом невизначеності при перевірці гіпотез) Припустимо для простоти, що обидва розподіли (в нульовій і альтернативній гіпотезах) мають щільності. Тоді за основною лемою Неймана - Пірсона існує найбільш потужний критерій такого вигляду. Позначимо через і щільності розподілів вибірки за умов, що вірною є відповідно нульова чи альтернативна гіпотези. Нульова гіпотеза приймається тоді і тільки тоді, коли де - відповідна постійна.
(Для простоти припускається, що ймовірність того, що дорівнює 0) Теорія Неймана - Пірсона стала основною при перевірці гіпотез, не позбавленою при цьому парадоксів. У 1950 р. Герберт Роббінс показав, що існує критерій, в певному розумінні більш потужний, ніж найбільш потужний критерій Неймана - Пірсона.
2.11.2 Парадокс
Припустимо, що випадкова величина нормально розподілена з математичним сподіванням і дисперсією 1. Нехай нульова гіпотеза полягає в тому, що , а альтернативна гіпотеза полягає в тому, що . На основі вибірки з одного елементу найбільш потужним критерієм перевірки нульової гіпотези проти альтернативної гіпотези є: якщо , то нульова гіпотеза приймається, а альтернативна відхиляється; в протилежному випадку нульова гіпотеза відхиляється, а альтернативна приймається. В цьому випадку ймовірності помилок обох видів дорівнюють приблизно 16%, оскільки
Якщо скористатися цим критерієм в незалежних випадках, то при великих середня кількість помилкових рішень приблизно дорівнює . Оскільки в кожному випадку використовувався найбільш потужний критерій, то слід було б чекати, що середня кількість помилкових рішень ніколи не може бути меншою . Як не парадоксально, але наступний метод Роббінса показує, що це не так.
Нехай - середнє арифметичне спостережень . Критерій Роббінса полягає в наступному: якщо , то для всіх , якщо , то для всіх , і, нарешті, якщо , то або в залежності від того, виконується чи ні нерівність
.
Цей метод дивує тим, що він об’єднує незалежні одну від одної задачі. Якщо істинне відношення тих , для яких , до тих , для яких , дорівнює 0, то при великих (наприклад, для ) критерій Роббінса дає відповідь зі 100% надійністю; для відношення 0,1 ймовірність помилки (обох типів) складає 7%; для відношення 0,2 ймовірність помилки дорівнює 11%; для 0.3 - 14% і навіть для відношення 0,4 відсоток помилок менший 16% рівня найбільш потужного критерію. Метод Роббінса стає менш ефективним, ніж найбільш потужний критерій, лише у випадку відношення, близького до 0.5.
2.11.3 Пояснення парадоксу
Парадокс Роббінса показує, що навіть тоді, коли треба прийняти рішення про прийом чи відмову від продукції, яка надходить з різних незалежно працюючих фабрик, загальна кількість помилкових рішень буде в середньому меншою, якщо ми не будемо приймати рішення незалежно одне від другого.
У 1961 р. Джеймс і Стейн запропонували таку просту оцінку для математичного сподівання багатовимірного нормального розподілу
де .
Тоді , але . Отже, оцінка справді не є допустимою. Оцінка переводить вектор ближче до початку координат, а оскільки початок координат можна вибрати довільно, то оцінка
також краща, ніж , при будь якому виборі . Таким чином, оцінка Джеймса - Стейна залежить від вибору початку координат , а в той же час від не залежить. (Можна показати, що оцінка
навіть дещо краща, ніж )
Висновки
На думку Карла Пірсона, у математиці немає іншого такого розділу, в якому настільки легко можна було б робити помилки, як у теорії ймовірностей та математичній статистиці. Математична статистика багата на парадокси. Важливо розрізняти парадокси і софізми. Парадокси - це суперечні інтуїції або здоровому глузду, але вірні результати. Софізми - помилкові результати, одержані за допомогою міркувань, які формально здаються вірними. Розглянемо деякі парадокси математичної статистики.
Парадокс оцінок математичного сподівання.
Парадокс.
Нехай - реалізація вибірки з розподілу . Розподіл залежить від параметра , де - математичне сподівання розподілу . Значення параметра в розподілі невідомо, і його необхідно оцінити за реалізацією вибірки .
Якщо за розподіл обрати нормальний розподіл , то оцінка
незміщена, спроможна, ефективна оцінка для параметра . Для розподілу ж , відмінного від нормального, оцінка не є незміщеною оцінкою з найменшою дисперсією.
У цьому і полягає парадокс оцінки математичного сподівання.
Пояснимо парадокс.
Розглянемо сім’ю розподілів на , які залежать від параметра і задаються щільністю .
Кількість інформації за Фішером має вигляд:
(1)
За умов, що щільність ми вважаємо, що підінтегральний вираз дорівнює нулю. Отже формула (1) перепишеться у вигляді:
(2)
В 1965 році Каган, Ліннік та Рао сформулювали теорему, згідно з якою у класі щільностей , зі скінченою дисперсією , які задовольняють умови 1. - неперервно - диференційовна функція.2. при , нерівність Крамера-Рао
обертається на рівність на гауссівському розподілі.
Доведення. Будемо вважати, що середне значення розподілу дорівнює нулеві. Позначимо через множину точок , для яких щільність додатна.
Інтеграл по множині від х помножене на похідну від щільності дорівнює - 1:
.
Користуючись нерівністю Коші - Буняковського для інтегралів здобуваємо нерівність
, (3)
при цьому знак рівності досягається тоді й тільки тоді, коли справедлива формула
(4)
Розв’язуючи диференціальне рівняння (4), знайдемо щільність
. (5)
Для знаходження сталих скористаємося тим, що 1) - інтеграл від щільності дорівнює 1,2) - середнє дорівнює 0 та 3) - дисперсія скінчена й дорівнює .
Отже, маємо щільність нормального розподілу з параметрами :
.
Теорема доведена.
Отже парадокс показує, що за виключенням нормального розподілу, середнє арифметичне вибірки не є незміщеною оцінкою з найменшою дисперсією для математичного сподівання розподілу .
Парадокс оцінок дисперсії.
Історія парадоксу.
Найважливішою характеристикою випадкових величин і їх розподілів разом з математичним сподіванням є дисперсія.
Нехай вибірка з розподілу . Якщо дисперсія розподілу скінченна, то при відомому математичному сподіванні розподілу вибіркова дисперсія дорівнює виразу
і є незміщеною оцінкою дисперсії .
Ситуація змінюється, коли математичне сподівання розподілу невідоме і в якості оцінки математичного сподівання розглядається
.
Тоді вибіркова дисперсія
вже не є незміщеною оцінкою.
Оцінка є асимптотично незміщеною оцінкою для . Оскільки незміщеність - одна з необхідних властивостей, яку повинна мати добра оцінка, змінимо оцінку так, щоб отримати незміщену оцінку для .
.
Оцінка незміщена оцінка для .
Проте парадокс оцінок дисперсії показує, що не завжди треба обмежуватися розглядом лише незміщених оцінок. Інколи оцінка з малим зсувом і малою мірою розкиду значень оцінки краща незміщеної оцінки з великою дисперсією.
Парадокс.
Нехай - вибірка з нормального розподілу з параметрами . Оцінка
незміщена оцінка для , а оцінка
для така, що міра розкиду оцінки відносно мінімальна. Вимога незміщеності і мінімуму міри розкиду приводять до різних оцінок. Треба дізнатися якій з оцінок віддати перевагу.
Пояснимо парадокс. Розглянемо клас оцінок
.
Математичне сподівання оцінок дорівнює
.
Тобто в класі оцінок існує єдина незміщена оцінка , яка відповідає і ця оцінка є :
. (1)
Міра розсіювання оцінок відносно обчислюється за формулою:
. (2)
Позначимо через функцію параметра
. (3)
Знайдемо , при якому досягає найменшого значення. Це значення
. (4)
При цьому має вигляд:
. (5)
Одержуємо нерівність (6). Міра розсіювання оцінки відносно менша ніж міра розсіювання оцінки відносно .
. (6)
Таким чином, на підставі вимоги мінімуму міри розсіювання оцінки зміщена оцінка
,
зміщення якої
(7)
мале при чималому об'ємі вибірки , краще оцінює дисперсію , чим незміщена оцінка .
Цей парадокс показує, що не може бути єдиного критерію, за яким необхідно порівнювати всі оцінки, як не існує єдиної оцінки даного параметра , яка прийнятна для всіх випадків.
Зауважимо.
Вибіркова дисперсія
при відомому математичному сподіванні - ефективна оцінка для . Оцінка не є ефективною оцінкою для . Ефективної оцінки для (при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра нерівність Крамера - Рао не обертається в рівність.
Парадокс Байєса.
Історія парадоксу.
Теорема Томас Байєс, доведена близько 1750 р. і опублікована лише після смерті автора, стала джерелом суперечок в статистиці. Вони не припинилися й досі. Сформулюємо теорему Байєса. Нехай події , утворюють повну групу подій. Тоді для будь-якої події умовна ймовірність події відносно рахується за формулою
(1)
Формула Байєса дозволяє за апріорними ймовірностями подій знайти апостеріорні ймовірності подій . В більшості її застосувань апріорні імовірності невідомі. В цьому випадку вважають, що, оскільки відсутня попередня інформація про події , то усі ймовірності рівні, але такий підхід, взагалі кажучи, неприйнятний.
Байєс використовував свою теорему у випадках, коли апріорні імовірності були випадковими величинами, зокрема, рівномірно розподіленими на .
Нехай - випадкова величина рівномірно розподілена на .
.
Вважаємо, що щільність апріорна.
Позначимо через - подію, яка полягає у тому, що "в випробовуваннях Бернуллі подія відбулась разів", при цьому ймовірність події дорівнює .
Тоді умовна ймовірність події за умов, що набуло значення має вигляд
. (2)
А умовна щільність випадкової величини перепишеться у вигляді
. (3)
І вона є апостеріорною щільністю. Імовірність того, що рахується за формулою
. (4)
Наприклад, якщо , , , , то імовірність того, що більше , дорівнює :
Не всі довіряють цьому результату, зокрема, тому, що мають сумніви щодо рівномірності апріорного розподілу.
Парадокс.
Нехай можливими значеннями випадкової величини є цілі числа. Припустимо, що ймовірнісний розподіл залежить від параметру . Якщо вибірка здобута з невідомого розподілу , то послідовність апостеріорних розподілів при збільшенні числа спостережень концентрується навколо істинного значення невідомого параметра .
(5)
Оцінка параметра обирається виходячи з максимуму апостеріорної щільності, тобто
. (6)
Парадоксально, але це не завжди вірно. Наприклад, істинне значення параметра може дорівнювати , а послідовність апостеріорних розподілів все більше зосереджується, наприклад, біля .
Пояснення парадоксу.
Нехай апріорний розподіл параметра рівномірний на відрізку
~. (7)
Визначимо функцію на цьому відрізку таким чином. Визначимо функцію на цьому відрізку таким чином, що значеннями завжди є натуральні числа, за виключенням точок та , де :
(8)
Нехай розподіл випадкової величини (який залежить від ) має вигляд
, (9)
де знаходиться з рівності
. (10)
При відповідному виборі вказана вище парадоксальна ситуація здійснена.
Парадокс методу найменших квадратів. Парадокс.
Нехай - вибірка з двостороннього зміщеного показникового розподілу, утворена незалежними випадковими величинами зі щільністю , де відомі. За результатами спостережень необхідно оцінити невідомий параметр .
Оцінка параметра за методом найменших квадратів має вигляд
. (1)
Оцінка параметра за методом максимальної правдоподібності дорівнює
(2)
Оцінка параметра за МНК - методом не збігається з оцінкою, здобутою за методом максимальної правдоподібності. Треба вибрати яка з них краще?
Пояснення парадоксу.
Якщо - результати спостережень - розподілені нормально (щільність розподілу має вигляд , ), то згідно з МНК - методом та методом максимальної правдоподібності оцінкою параметра є
. (3)
В методі найменших квадратів Гаусс виходив з припущення про нормальний розподіл похибок (і відповідно результатів спостережень ). Якщо відомо, що розподіл похибок відмінний від нормального, використовувати МНК - метод для оцінювання параметрів не рекомендують. Кращою оцінкою є оцінка, знайдена за методом максимальної правдоподібності, оскільки вона асимптотично ефективна для параметра .
Парадокс методу максимальної правдоподібності.
Парадокс.
Наведемо простий приклад, який показує, що оцінка максимальної правдоподібності не завжди спроможна. Нехай - множина раціональних чисел між , а В - деяка зліченна множина ірраціональних чисел між . Припустимо, що значеннями незалежних елементів вибірки є тільки , причому значення 1 набувається з імовірністю , якщо - елемент множини А, і з імовірністю , якщо - елемент В. Тоді оцінка максимальної правдоподібності для не є спроможною.
Пояснення парадоксу.
Пояснення досить просте: оцінка максимальної правдоподібності для є частота , яка прямує до для раціональних і прямує до для ірраціональних .
Список використаних джерел
Каган А.М., Линник Ю.В., Рао С.Р. Характеризационные задачи математической статистики. - М.: Наука, 1972.
Турчин В.Н. Математическая статистика. - Д.: Издательство ДНУ, 1996.
Боровков А.А. Математическая статистика. - М.: Наука, 1984.
Турчин В.М. Теорія ймовірностей і математична статистика. - Д.: Видавництво ДНУ, 2006.
Freedman D. F. On the asymptotic behavior of Byes’ estimates in the discreete case, 1963.
Ивченко Г.И., Медведев Ю.В. Математическая статистика: учеб. пособие для вузов. - М.: Высш. шк., 1984.
Секей Г. Парадоксы в теории вероятностей и математической статистике. - М.: Мир, 1990.
Приложение
Парадокси в математичній статистиці
Парадокс оцінок математичного сподівання
-
незміщена, спроможна, ефективна оцінка для парам.
не є ефективною оцінкою для параметра
Пояснення парадоксу.
, , , ,
, (1)
(2)
Теорема (Каган, Ліннік, Рао). У класі щільностей , зі скінченою дисперсією , які задовольняють умовам:
1. - неперервно - диференційовна функція.2. при , нерівність Крамера-Рао обертається на рівність на гауссівському розподілі.
Доведення. , , .
(3)
(4)
(5)
Скористаємося тим, що
, , .
Щільність нормального розподілу з параметрами :
(6)
Теорема доведена.
Парадокс оцінок дисперсії
Історія парадоксу.
~, - скінчена, - відоме, - незміщена оцінка для
- скінчена, - невідоме, , - асимп. незм. оцінка для
незміщена оцінка для .
Парадокс.
Нехай
~.
Оцінка
- незміщена оцінка для , а оцінка
для така, що міра розкиду оцінки відносно
мінімальна.
Якій з оцінок віддати перевагу?
Пояснення парадоксу.
, , , ,
. (1)
Міра розсіювання оцінок відносно
(2)
(3)
(4)
(5)
. (6)
Зміщена оцінка
,
зміщення якої
(7)
мале при , краще оцінює дисперсію , ніж незміщена оцінка .
Зауваження.
Оцінка
-
ефективна для , - відоме.
Оцінка
-
не є ефективною для .
Парадокс Байєса
Теорема Байєса (1750 р)
Нехай - повна група подій,
, .
Тоді для будь-якої події
(1)
Апріорна щільність:
~.
-“в випробовуваннях Бернуллі подія відбулася разів", .
(2)
Апостеріорна щільність:
(3)
(4)
, , ,
Парадокс Байєса.
, ~, , ~
(5)
(6)
Пояснення парадоксу.
~, (7)
(8)
(9)
(10)
[Freedman D. F. “On the asymptotic behavior of Byes’ estimates in the discreete case” 1963]
Парадокс методу найменших квадратів
~, -відомі, (1)
Оцінка параметра за методом найменших квадратів
. (2)
Оцінка параметра за методом максимальної правдоподібності
(3)
Оцінка параметра за МНК - методом не збігається з оцінкою, здобутою за методом максимальної правдоподібності. Яка з них краще?
Пояснення парадоксу.
~, -відомі, (4)
Оцінка параметра за МНК - методом та методом максимальної правдоподібності
. (5)
Парадокс методу максимальної правдоподібності. Парадокс.
якщо , якщо
Пояснення парадоксу.
-
оцінка максимальної правдоподібності для