Реферат Статистический анализ рядов распределения
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего
от 25%

Подписываем
договор
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего
профессионального образования
«Санкт-Петербургский государственный
политехнический университет»
Факультет экономики и менеджмента
Кафедра «Предпринимательство и коммерция»
КУРСОВОЙ ПРОЕКТ
по дисциплине «Статистика»
на тему «Статистический анализ рядов распределения. Проверка гипотезы о законе распределения»
Выполнил____________
(подпись)
Принял: Магистр коммерции
____________
(подпись)
«__» _________ 2010 г.
Санкт-Петербург
2010
Далее представлены таблицы вариационного ряда, построенные с использованием разного числа интервалов (k = 15, k = 5 и k = 8).
Табл.1.5
Рассчитанная таблица частот с интервалом 15 (k = 15)
Табл.1.6
Рассчитанная таблица частот с интервалом 5 (k = 5)
Табл.1.7
Рассчитанная таблица частот с интервалом 8 (k = 8)
Для графического представления рядов распределения используются, в основном, три вида графиков:
1. Полигон распределения.
2. Гистограмма распределения.
3. Кумулята распределения.
Наряду с этим, STATISTICA дает возможность получать графические представления эмпирического распределения, широко используемые в зарубежной статистической литературе, как учебной, так и профессиональной. Речь идет о графиках Box-and- Whisker Plot, Hanging Bars.
Гистограмма (или столбиковая диаграмма) строится только для интервальных вариационных рядов. Основаниями столбиков гистограммы, являются интервалы значений варьирующего признака, а высота столбиков соответствует частоте каждого интервала.
Для построения гистограммы удобно воспользоваться кнопкой Histograms на закладке Advanced меню Frequency Tables, которым мы пользовались для построения таблиц. При этом условия построения гистограмм должны полностью соответствовать условиям построения таблиц.
На построенных графиках (рис. 1.1, 1.2, 1.3, 1.4) помимо гистограммы нанесена кривая нормального распределения (обозначена красным цветом).
Гистограмма регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2005 г. с наложенными на них кривыми нормального распределения: с числом интервалов k = 10
Рис. 1.1
Гистограмма регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2005 г. с наложенными на них кривыми нормального распределения: с числом интервалов k = 15
Рис. 1.2
Гистограмма регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2005 г. с наложенными на них кривыми нормального распределения: с числом интервалов k = 5
Рис. 1.3
Гистограмма регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2005 г. с наложенными на них кривыми нормального распределения: с числом интервалов k = 8
Рис. 1.4
При k = 10 получено много малонаполненных групп, наблюдаются две вершины и получается плосковершинное распределение (равные частоты в двух группах). Такой интервал нам не подходит.
При k = 15 получено еще больше малонаполненных групп, чем при k = 10, а также у 2, 3 и 5 групп соответственно равные частоты, что приводит в плосковершинному распределению. Интервал, равный 15, тоже не подходит.
При k = 8 наблюдаются две вершины, в двух группах равные частоты. И вообще распределение не является нормальным, т.к. частота в третьей группе ниже, чем во второй. Этот интервал также не подходит нам.
Выбирая окончательный вариант табличного представления вариационного ряда в нашем примере, следует остановиться на группировке с использованием 5 групп. Все группы вполне наполнены, наблюдается одна вершина, нет плосковершинного распределения.
Ниже представлены полигон и кумулята для вариационного ряда с использованием 5 групп.
Полигон распределения целесообразнее использовать для рядов, построенных по дискретному признаку. Если полигон строится по интервальному вариационному ряду, то в качестве значения признака берется середина интервала. По оси Х откладываются значения признака, по оси Y – частоты (частости).
Для построения полигона на основе абсолютных частот необходимо выделить столбец Count в таблице частот и щелкнуть на нем правой кнопкой мыши.
Полигон регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2001г. при k=5
Рис. 1.5
Для построения полигона по относительным частотам, кумуляты по абсолютным и относительным частотам выбираются соответственно столбцы Percent, Cumulative count , Cumulative percent в таблице частот.
Кумулята регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2001г. при k=5
Рис. 1.6
Полигон регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2001г. при k=5
Рис. 1.7
Кумулята регионов России по значению показателя «Число собственных легковых автомобилей на 1000 человек» в 2001г. при k=5
Рис. 1.8
Одним из приемов компактного изображения статистической совокупности, находящимся вне отечественной традиции, является "Box-and-Whisker Plot" — "ящик с усами". Рассматриваемая процедура обеспечивает как диагностическую, так и описательную информацию об исследуемой совокупности.
Для ее реализации запускаем процедуру Graphs/2D Graphs/Box Plots. В появившемся окне удобно сразу же выбрать интересующий нас тип графика (в поле Graph Type выбираем Box-Whiskers). Остальные свойства графика удобнее всего настроить, перейдя на закладку Advanced.
График появляется в вертикальном виде, однако, на практике принято рассматривать его горизонтально. Для того чтобы повернуть график на 90 градусов, нужно щелкнуть в поле графика правой кнопкой мыши и выбрать меню Graph Properties (All options). Далее переходим к закладке Graph layout: в поле Axis position вместо функции Standard выбираем Reserved, то есть обратное положение оси абсцисс. Нажимаем ОК.
Диаграмма "Box-and-Whisker Plot" — "ящик с усами"
Рис.1.9
Метод "Box-and-Whisker Plot" также дает полезную информацию о концентрации, дисперсии и асимметрии распределения, но наряду с этим исследователь получает наглядное представление о том, что происходит на концах распределения.
В качестве дополнения отметим, что система дает также возможность получить нетрадиционное графическое представление о том, как соотносятся между собой эмпирическое распределение и его нормальная аппроксимация. Речь идет о графике "Hanging Histobars" или “Hanging Bars” (в весьма вольном переводе – «висячие полоски»). Канонизированного термина на русском языке нет, потому будем обозначать рассматриваемую процедуру как "HH-график".
Для его представления необходимо запустить процедуру Graphs/2D Graphs/Histograms и далее перейти к закладке Advanced.
Диаграмма “Hanging Bars”
Рис.1.10
HH-процедура выводит на экран изображение близкое к гистограмме, с тем только различием, что столбцы гистограммы не опираются на горизонтальную ось, а "подвешены" (Hanging) к кривой нормального распределения в точках, соответствующих серединам интервалов группировки.
2. Расчет основных характеристик вариационного ряда
Статистический анализ вариационных рядов распределения предполагает расчет характеристик центра распределения, его структуры, оценку степени вариации и дифференциации изучаемого признака, изучение формы распределения.
В качестве показателей центральной тенденции распределения используются: среднее арифметическое значение, мода и медиана. Основными показателями вариации являются: размах вариации, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Для характеристики структуры распределения используются следующие показатели: медиана, квартили, децили и прочие перцентили. Изучение формы распределения предполагает оценку асимметрии и эксцесса (куртозиса). Перечисленные показатели имеют самостоятельное аналитическое значение, поскольку отражают разные свойства изучаемой совокупности, а все вместе они позволяют получить комплексную характеристику эмпирического распределения.
В программе STATISTICA, как и в других статистических ППП, есть возможность получить все перечисленные показатели, пользуясь одной процедурой. В главном меню раздел Statistics, активизируем опцию Basic Statistics/Tables. Затем, в появившемся контекстном окне, выбирается процедура Descriptive statistics – описательные статистики. Закладка Advanced предлагает пользователю сформировать набор вычисляемых статистик, отвечающих целям анализа.
Ниже приведены результаты расчета основных статистических характеристик.
Табл.2.1
Основные характеристики распределения регионов России по значению
показателя «Число собственных легковых автомобилей на 1000 человек» в 2001 г.
Valid N – объем выборки (число единиц в совокупности). У нас 84 региона.
Mean – средняя арифметическая. ,
где n – объем совокупности (число единиц);
Хi – значение признака у I-ой единицы совокупности.
Средняя арифметическая величина – отношение объема признака к объему совокупности. Данная средняя используется для расчета средних значений абсолютных показателей по не сгруппированным данным.
Median – медиана. Это значение признака у единицы, делящий ранжированный ряд пополам.
Mode – мода определяется непосредственно по исходным данным (запись в строке Multiple означает, что распределение имеет не одну моду). Это наиболее часто встречающееся значение признаков совокупности.
Frequency – частота модального значения.
Sum – сумма значений признака в совокупности.
Variance – дисперсиия.
Показатель дисперсии в экономических исследованиях содержательно не интерпретируется, но благодаря своим свойствам широко используется для расчета многих статистических характеристик.
Standard deviation – среднее квадратическое (стандартное) отклонение.
Minimum – минимальное значение признака в совокупности: x min .
Maximum – максимальное значение признака в совокупности: x max.
Range – размах вариации.
Lower (Lower quartile)
– нижний (первый) квартиль.
Upper (Upper quartile) – верхний (третий) квартиль.
Quartile (Interquartile range) – межквартильный размах: Q3 – Q1.
Skewness – асимметрия.
Табл.2.2
Сравнение статистических показателей, рассчитанных
различными способами
№ п/п | Показатель | Значение в ППП STATISTICA | Значение после ручного расчета |
1 | Средняя арифметическая | 122,2202 | 122,2202 |
2 | Мода | Multiple | Multiple |
3 | Медиана | 120,0000 | 120,0000 |
4 | Дисперсия | 1239,130 | 1239,130 |
5 | Среднее квадратическое отклонение | 35,20128 | 35,20128 |
6 | Частота модального значения | 2 | 2 |
7 | Сумма значений признака | 10266,50 | 10266,50 |
8 | Верхний квартиль | 140,7000 | 140,7000 |
9 | Нижний квартиль | 105,6000 | 105,0000 |
Среди рассчитанных характеристик нет такого важного показателя вариации, как коэффициент вариации (принято рассчитывать в процентах):
В нашем случае коэффициент вариации равен:
V = (35,20128/122,2202)*100 = 28,8 %.
Заключение
В данном курсовом проекте была рассмотрена реализация анализа распределений с использованием программы STATISTICA, а также произведены расчеты основных статистических показателей.
Таким образом, по итогам курсового проекта я освоила методику и приобрела практические навыки анализа распределений, включающего расчет основных статистических характеристик, графическое и табличное представление рядов распределения.