Реферат Статистическое изучение связи между явлениями, область применения
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
САНКТ-ПЕТЕРБУРГСКАЯ АКАДЕМИЯ УПРАВЛЕНИЯ И ЭКОНОМИКИ
МУРМАНСКИЙ ИНСТИТУТ ЭКОНОМИКИ
ФАКУЛЬТЕТ ЭКОНОМИКИ И ФИНАНСОВ
Заочная форма обучения
СПЕЦИАЛЬНОСТЬ «Бухгалтерский учет, анализ и аудит»
КУРСОВАЯ РАБОТА
по дисциплине «Статистика»
на тему «Статистическое изучение связи между явлениями, область применения»
ВЫПОЛНИЛ
Студент Нефедова А.А.
Группа 9-5331/4-2
(Б2-29)
Курс 4
Контактный телефон
89095590657
Руководитель Атласова Е.С.
Допущена/ не допущена к защите
Мурманск
2011
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ…………………………………………………………………………..3
ГЛАВА 1. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗИ МЕЖДУ
ЯВЛЕНИЯМИ………………………………………………………………………..4
1.1. Виды и формы связей………………………………………………….4
1.2. Результативный и факторный признак……………………………….7
1.3. Методы изучения и применения взаимосвязей………………………8
1.4. Корреляционно-регрессионный анализ……………………………..11
1.5. Уравнение регрессии, показатели измерения тесноты связи………23
ГЛАВА 2. СТАТИСТИЧЕСКИЕ СВЯЗИ МЕЖДУ ЯВЛЕНИЯМИ НА ПРИМЕРЕ…………………………………………………………………………...28
2.1. Зависимость среднего балла учеников от класса обучения………...28
ЗАКЛЮЧЕНИЕ…………………………………………………………………......32
БИБЛИОГРАФИЧЕСКИЙ СПИСОК……………………………………………..34
ВВЕДЕНИЕ
Исследование зависимостей и взаимосвязей между объективно существующими явлениями и процессами играет значительную роль во многих науках. Оно позволяет глубже понять механизм причинно-следственных отношений. В настоящее время важно уметь количественно измерить тесноту причинно-следственных связей. Для исследования связей между процессами и явлениями широко применяется корреляционный и регрессионный анализ.
Цель работы – на основе изучения и обобщения статистических методов корреляционного и регрессионного анализа исследовать различные зависимости.
Задачи:
- осуществить сбор статистической информации
- выполнить статистическую обработку информации, используя методы корреляционного и регрессионного анализа;
- оценить адекватность результата и его практическое использование.
ГЛАВА 1. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗИ МЕЖДУ ЯВЛЕНИЯМИ
1.1. Виды и формы связей
Существуют два вида связи: функциональная и корреляционная, которые обусловлены двумя типами закономерности: динамической и статистической.[1]
При функциональной зависимости величине факторного признака строго соответствует одно или несколько значений другой величины (функции). Взаимосвязанные признаки подразделяются на факторные (под их воздействием изменяются другие, зависящие от них признаки) и результативные.
При функциональной связи изменение результативного признака всецело зависит от изменения факторного признака :
Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака.
В различных процессах, характеризующихся статистическим закономерностями, нет строгой зависимости между причиной и результатом, и обычно не предоставляется возможным выявить строгую зависимость явлений от факторов, потому что закономерности складываются под влиянием множества причин и условий.
При корреляционной связи изменение результативного признака не всецело зависит от факторного признака , а лишь частично, так как возможно влияние прочих факторов : .
Корреляционная связь является свободной, неполной и неточной связью. Например, себестоимость величины продукции зависит от уровня производительности труда: чем выше производительность труда, тем ниже себестоимость. Но себестоимость зависит также и от ряда других факторов: стоимости сырья и материалов, топлива, электроэнергии, их расхода на единицу продукции, цеховых и общезаводских расходов и т.д. Поэтому нельзя утверждать, что при повышении производительности труда, допустим, на 10% себестоимость снизится также на 10%. Может случиться, что, несмотря на рост производительности труда, себестоимость не только не снизится, но даже несколько повысится, если на нее окажут более сильное влияние действующие в обратном
Корреляционная зависимость проявляется только в средних величинах и выражает соотношение между ними в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.
Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.
Для того, чтобы установить, есть ли зависимость между величинами, используются многообразные статистические методы, позволяющие определить, во-первых — какие связи; во-вторых — тесноту связи (в одном случае она сильная, устойчивая, в другом — слабая); в-третьих — форму связи (т.е. формулу, связывающую величину и).[2]
По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых, наоборот, рост факторного признака сопровождается уменьшением результативного. Такие связи также можно назвать соответственно положительными и отрицательными.
По аналитическому выражению корреляционная связь может быть примолинейной и криволинейной. Прямолинейной называется связь, когда величина явления изменяется приблизительно равномерно в соответствии с изменением величины влияющего фактора. Математически прямолинейная связь может быть выражена уравнением прямой: .
Если происходит неравномерное изменение явления в связи с изменением величины влияющего фактора, то такая связь называется криволинейной. Математически криволинейная зависимость может быть выражена уравнением криволинейной связи (уравнение параболы, показательная, степенная, логарифмическая функции и другие).[3]
Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.
1.2. Результативный и факторный признак
Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и поставленных задач. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.[4]
В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.
Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, показательной, экспоненциальной и т. д.), то такую связь называют нелинейной, или криволинейной.
1.3. Методы изучения и применения взаимосвязей
Х | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
У | 5 | 6 | 9 | 10 | 14 | 17 | 15 | 20 | 23 |
В статистике не всегда требуются количественные оценки связи, часто важно определить лишь ее направление и характер, выявить форму воздействия одних факторов на другие. Для выявления наличия связи, ее характера и направления в статистике используются методы приведения параллельных данных; аналитических группировок; графический, корреляционный, регрессионный.[5]
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин X и У. С увеличением величины X величина У также возрастает. Поэтому связь между ними прямая, и описать ее можно или уравнением прямой, или уравнением параболы второго порядка.
Взаимосвязь двух признаков изображается графически с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей наблюдается беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис. 1).
Рисунок 1
Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают воздействие многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер и аналитически выражаются функцией вида .[6]
Корреляционный метод имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.[7]
В статистике различаются следующие варианты зависимостей:
· парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными);
· частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
· множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (тесноту) статистической связи, регрессия исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.
Регрессионный метод заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).[8]
По направлению связи различают:
· прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
· обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.
Положительную и отрицательную регрессии можно легче понять, если использовать их графическое изображение (см. рис. 1).
Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, приобретает практический смысл только последнее положение; при множественности причинных связей невозможно четко отграничить одни причинные явления от других.
1.4 Корреляционно-регрессионный анализ
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.[9]
Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.
Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.
Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.
По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.
Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.
Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.[10]
Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.
По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.[11]
Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.
Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.
Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.
Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.
Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.[12]
Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.
Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.
Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:
\ Y \ X \ | Y1 | Y2 | ... | Yz | Итого | Yi |
X1 | f11 | 12 | ... | f1z | | |
X1 | f21 | 22 | ... | f2z | | |
... | ... | ... | ... | ... | ... | ... |
Xr | fk1 | k2 | ... | fkz | | |
Итого | | | ... | | n | |
| | | ... | | | - |
В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты fij показывают количество соответствующих сочетаний Х и У. Если fij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания fij допустимо утверждать о связи между Х и У. При этом, если fij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.
В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Хi среднее значение У, т.е. , как
Последовательность точек (Xi, ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.
По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.
Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле
Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.
Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.
Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель[13]
где n – число наблюдений;
а0, а1 – неизвестные параметры уравнения;
ei – ошибка случайной переменной У.
Уравнение регрессии записывается как
где Уiтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.
Параметры а0 и а1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда
т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а0 и а1. Ее минимизация осуществляется решением системы уравнений
Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:
Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а1. Параметр а1 обладает размерностью отношения У к X.
Параметр a0 – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.
Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение [14]
У = -12,14 + 2,08Х.
Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2.08 тыс. руб.
Значение функции У = a0 + а1Х называется расчетным значением и на графике образует теоретическую линию регрессии.
Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.
Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.[15]
Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.
Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:
В первом приближении нужно, чтобы . Значимость rxy проверяется его сопоставлением с , при этом получают
где tрасч – так называемое расчетное значение t-критерия.
Если tрасч больше теоретического (табличного) значения критерия Стьюдента (tтабл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что rxy значимо.
Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие tрасч > tтабл. В противном случае доверять полученной оценке параметра нет оснований.
Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:
Где
n – число наблюдений;
m – число параметров уравнения регрессии.
Fрасч также должно быть больше Fтеор при v1 = (m-1) и v2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.
Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.[16]
Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.
Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.
Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.[17]
Занятия родителей | Число детей, занятых в | Всего | |||
Промышлен- ности и стро- ительстве | сельском хозяйстве | сфере обслужи- вания | сфере интел- лектуального труда | ||
1. Промышленность и строительство 2. Сельское хозяйство 3. Сфера обслуживания 4. Сфера интеллектульного труда | 40 34 16 24 | 5 29 6 5 | 7 13 15 9 | 39 12 19 72 | 91 88 56 110 |
Всего | 114 | 45 | 44 | 142 | 345 |
Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей. родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т.д.
Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства; более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т.д.
Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):
где f2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:
К1 и К2 – число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.[18]
В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.
При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.
Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.
1.5 Уравнение регрессии, показатели измерения тесноты связи
Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такового показателя выступает линейный коэффициент корреляции r. Одна из формул линейного коэффициента корреляции имеет вид:
| |
| |
Коэффициент корреляции находится в пределах: . Если b>0, то 0<r<1, и, наоборот, при b<0, -1< r<0.[19]
Линейный коэффициент корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютного значения линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При нелинейном виде модели связь может оказаться достаточно тесной.
Квадрат линейного коэффициента корреляции называется коэффициентом детерминации. Он характеризует долю дисперсии результативного показателя y, объясняемую регрессией.
Соответственно величина 1-r2 характеризует долю дисперсии у, вызванную влиянием остальных, неучтенных в модели, факторов.
После того как построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.
Оценка значимости уравнения регрессии в целом производится с помощью F-критерия Фишера.
С F-критерием тесно связана характеристика, называемая числом степеней свободы, которая применительно к исследуемой проблеме показывает, сколько независимых отклонений из n-возможных
требуется для образования данной суммы квадратов.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммы квадратов.
Число степеней свободы для факторной суммы квадратов равно 1, для общей суммы квадратов равно (n-1), для остаточной суммы квадратов составляет (n-2).
| |
| |
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получаем дисперсию на одну степень свободы:
| |
| |
Сопоставляя факторную и остаточную дисперсию на одну степень свободы, получим величину F- отношения (F - критерий):
Величина F- критерия связана с коэффициентом детерминации r2 :
| |
| |
F - критерий для проверки нулевой гипотезы H0: Dфакт = Dост.[20]
Т.е. если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Это дает основание считать, что влияние объясняющей переменной х модели несущественно, а, следовательно, общее качество модели невысоко.
Английским статистиком Снедекором разработаны таблицы критических значений F – отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F – критерия – это максимальная величина отношения дисперсии, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.
Если Fфакт > Fтабл, то нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.
Если F факт < Fтабл, то H0 не отклоняется и уравнение регрессии считается статистически незначимым.
| | | |
| | | |
| | |
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. Для этого по каждому из параметров определяется его стандартная ошибка: mb и ma:
Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т. е. определяется фактическое значение t - критерия Стьюдента:
, которое затем сравнивается с табличным значением при заданном уровне значимости a и числе степеней свободы (n-2)
Имеет место равенство:
.
Для оценивания существенности параметра определяется
и его величина сравнивается с табличным значением.
Если табличное значение t – критерия превышает фактическое, то делается вывод о несущественности данного коэффициента, а если наоборот, табличное значение меньше фактического - вывод о существенности данного коэффициента.
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции:
Фактическое значение t – критерия Стьюдента определяется как
Т.о. проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.[21]
B прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ух при хр = хк т.е. путем подстановки в уравнение регрессии соответствующего значения х. Точечный прогноз явно не реален, поэтому он всегда дополняется расчетом стандартной ошибки , т.е. , и соответственно интервальной оценкой прогнозного значения:
Стандартная ошибка предсказываемого среднего значения у, при заданном значении х, определяется по формуле:
где .[22]
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х.
Доверительные интервалы прогноза индивидуальных значений у при фиксированных значениях х с различными вероятностями имеют вид:
;
где ta=1 при 68% вероятности
ta=2,0 при 95% вероятности
ta=2,58 при 99% вероятности
Для экономических расчетов степень вероятности обычно принимается равной 95%.
ГЛАВА 2. СТАТИСТИЧЕСКИЕ СВЯЗИ МЕЖДУ ЯВЛЕНИЯМИ НА ПРИМЕРЕ
2.1 Зависимость среднего балла учеников от класса обучения
В исследовании принимала участие параллель 9 классов (46 человек) 2009-2010 учебного года МОУ “СОШ №11” г. Лесосибирска. [23]
На первом этапе исследования была составлена предварительная статистическая совокупность: для каждого ученика 9 класса был рассчитан средний годовой балл на протяжении всех лет обучения. Результаты отражены в таблице 1.
На втором этапе был рассчитан средний балл всех учеников за 1, 2…, 9 класс и получена корреляционная зависимость между факторным признаком (х) – класс обучения и результативным признаком (у) – средний балл обучения (успеваемость). Результаты представлены в таблице 2.
Таблица 1 – Расчетные данные
№ | Ученик | Средний балл обучения (с 1 по 9 класс) | |||||||
1 | 2 | 3 | 5 | 6 | 7 | 8 | 9 | ||
1 | Балдин Д. | 4,57 | 3,625 | 4,25 | 3,636 | 4 | 3,467 | 3,313 | 3,2 |
2 | Ботнарь К. | 3,5 | 3,875 | 3,75 | 3,727 | 4 | 3,467 | 3,47 | 3 |
3 | Белоусов Т. | 3,875 | 3,875 | 4,125 | 4,091 | 4,077 | 3,733 | 3,438 | 3,067 |
4 | Бортникова М. | 5 | 4,889 | 5 | 4,909 | 4,538 | 4,667 | 4,733 | 4,467 |
5 | Васильева Т. | 4,455 | 4,455 | 4,4 | 4,455 | 4,583 | 4,733 | 4,625 | 4,867 |
6 | Герасимов М. | 4,857 | 4,857 | 4,857 | 5 | 4,846 | 5 | 5 | 4,933 |
7 | Гарманов А. | 4 | 4,2 | 3,857 | 3,3 | 3,333 | 3,2 | 3,2 | 3 |
8 | Дроботова Н. | 4,571 | 4,5 | 4,375 | 4,182 | 4,077 | 3,733 | 3,875 | 3,067 |
9 | Долгошеева А. | 4,429 | 4,429 | 4,429 | 4,5 | 4,077 | 4,133 | 4,176 | 4 |
10 | Ефимов Д. | 3,286 | 3,556 | 3,333 | 3,4 | 3,583 | 3,357 | 3,375 | 3 |
11 | Зырянова Е. | 4,857 | 4,625 | 4,5 | 4,727 | 4,615 | 4,786 | 4,733 | 4,4 |
12 | Захарова М. | 4,6 | 4,6 | 4,7 | 4,727 | 4,364 | 4,2 | 4,235 | 4,133 |
13 | Иванов В. | 4,429 | 4,5 | 4,25 | 4,091 | 4,077 | 3,333 | 3,176 | 3,333 |
14 | Исаев Ю. | 4 | 3,75 | 3,556 | 3,636 | 3,615 | 3,867 | 3,882 | 3,4 |
15 | Капитонов С. | 4,143 | 4,5 | 3,75 | 3,909 | 4 | 3,733 | 3,529 | 3,2 |
16 | Моисеева К. | 4,714 | 4,429 | 4,571 | 4,636 | 4,308 | 3,933 | 3,824 | 3,643 |
17 | Матронина К. | 4,857 | 4,875 | 5 | 5 | 5 | 5 | 5 | 4,867 |
18 | Степуро Т. | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 4,933 |
19 | Сундетов Н. | 4 | 3,75 | 3,778 | 3,455 | 3,231 | 3,133 | 3,353 | 3 |
20 | Ушакова В. | 4,714 | 4,5 | 4,5 | 4,636 | 4,231 | 3,733 | 3,824 | 3,333 |
21 | Филимонов И. | 4,571 | 4,5 | 4,625 | 4,545 | 4,167 | 3,933 | 3,933 | 3,214 |
22 | Хабибуллин И. | 4,286 | 4,125 | 3,875 | 3,818 | 3,462 | 3,333 | 3,313 | 3 |
23 | Чемисов А. | 4,57 | 4,429 | 4,143 | 4,273 | 4,231 | 4,2 | 4,294 | 4 |
24 | Шевченко О. | 4,75 | 4,5 | 4,625 | 4,364 | 4,231 | 4,267 | 4,25 | 4,133 |
25 | Шароглазов А. | 4,714 | 4,75 | 4,75 | 5 | 5 | 5 | 5 | 5 |
26 | Щербаков И. | 4,571 | 3,75 | 3,625 | 3,364 | 3,231 | 3,2 | 3,313 | 3,067 |
27 | Дитковская А. | 4,286 | 4,5 | 4,125 | 4,091 | 4,154 | 4,067 | 4,235 | 3,533 |
28 | Меркулов А. | 4,857 | 4,75 | 4,375 | 4,091 | 4,231 | 4,067 | 4,125 | 3,733 |
29 | Бондаренко Н. | 4,143 | 3,625 | 3,625 | 3,727 | 3,308 | 3,267 | 3,294 | 3,133 |
30 | Бондаренко Ю. | 4,571 | 4,375 | 4,5 | 4,364 | 4,417 | 4,286 | 4,412 | 4,067 |
31 | Звягинцев А. | 4,222 | 4,25 | 4,375 | 4,091 | 4 | 4,067 | 4,176 | 3,933 |
32 | Кайсина Н. | 4,333 | 4,5 | 4,125 | 4,273 | 3,846 | 3,929 | 3,688 | 3,071 |
33 | Козлов А. | 4,333 | 4,25 | 4 | 3,909 | 3,615 | 3,8 | 3,588 | 3,333 |
34 | Капитан М. | 3,857 | 4 | 3 | 3,583 | 3,385 | 3,133 | 3,117 | 2,667 |
35 | Коробейников С. | 4 | 4,167 | 4,125 | 3,636 | 3,462 | 3,4 | 3,706 | 3,2 |
36 | Каверзин А. | 3,625 | 3,625 | 3,625 | 3,4 | 3,308 | 3,2 | 3,353 | 3,2 |
37 | Лозовская Н. | 3,833 | 4 | 3,714 | 3,818 | 3,692 | 3,867 | 4 | 3,667 |
38 | Мухаметшин Р. | 4,667 | 4,625 | 4,625 | 3,909 | 4,154 | 3,867 | 3,823 | 3,467 |
39 | Нехорошев Д. | 3,5 | 3,375 | 3,5 | 3,455 | 3,308 | 3,067 | 3,353 | 3,133 |
40 | Раченко А. | 3,75 | 3,875 | 4 | 4 | 3,846 | 3,4 | 3,294 | 3 |
41 | Тимук Д. | 4 | 4 | 4,222 | 3,364 | 4,538 | 3,467 | 3,765 | 3,533 |
42 | Филимонова Т. | 4,5 | 4,375 | 4,375 | 4,091 | 4 | 4,267 | 4,125 | 3,267 |
43 | Черноусов Г. | 5 | 4,875 | 4,375 | 3,923 | 3,769 | 4,071 | 4,294 | 4,133 |
44 | Шарафутдинова Д. | 4,286 | 4,375 | 4,125 | 4,091 | 4,083 | 3,692 | 3,867 | 3,2 |
45 | Юсупов Р. | 3,833 | 3,75 | 3,625 | 3,364 | 3,538 | 3,333 | 3,294 | 3 |
Таблица 2 – Средний балл учеников
x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
y | 4,317 | 4,256 | 4,170 | - | 4,064 | 3,999 | 3,863 | 3,888 | 3,581 |
Рисунок 2 - Зависимость среднего балла учеников от класса обучения
На третьем этапе был рассчитан показатель тесноты корреляционной связи – линейный коэффициент корреляции r = -0,958. Согласно которому связь между изучаемыми явлениями является обратной, сильной.
На следующем этапе было составлено уравнение регрессии для рассматриваемой корреляционной зависимости. Согласно графической интерпретации результатов исследования (рисунок 1) для математического описания статистической зависимости необходимо воспользоваться линейным уравнением регрессии: . Уравнение регрессионной модели для нашего случая примет вид:.[24]
Далее была построена статистическая таблица, в которой указаны значения факторного признака х (класс обучения), эмпирические значения результативного признака y, теоретические значения результативного признака у. Кроме того, в таблицу были добавлены результаты успеваемости за 1 полугодие 10 класса и спрогнозирована успеваемость школьников на 10,11 классы обучения.
Таблица 3 – Практическое использование построенной модели
х | y (эмпирические) | у (теоретические) |
1 | 4,317 | 4,346 |
2 | 4,256 | 4,267 |
3 | 4,170 | 4,188 |
5 | 4,064 | 4,030 |
6 | 3,999 | 3,954 |
7 | 3,863 | 3,872 |
8 | 3,888 | 3,793 |
9 | 3,581 | 3,714 |
10 | 3,894 | 3,635 |
11 | | 3,556 |
Рисунок 3 - Эмпирическая и теоретическая линии регрессии
Результаты показывают, что с 1 по 9 класс эмпирические и теоретические данные очень близки, достаточно большое расхождение наблюдается по данным за 10 класс. Это связано с тем, что число учеников, принимавших участие в эксперименте, сократилось с 45 до 20 человек, обучение в 10 классе продолжили школьники со средними и высокими способностями.
Таким образом, в исследовании был изучен статистический метод корреляционного и регрессионного анализа, обобщен и исследована зависимость уровня успеваемости школьников от класса обучения (с увеличением класса обучения успеваемость школьников снижается).
ЗАКЛЮЧЕНИЕ
Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация полученных результатов, т.е. перевод их с языка статистики и математики на язык экономики.
Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т.е. с изучения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемую обработку. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак статистической обработки. Если факторный признак имеет плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительные значения имеют минусовые знаки факторных признаков. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он со знаком минус, то необходимо проверить расчеты параметров уравнения регрессии.
Корреляционный и регрессионный анализ позволяет определить зависимость между факторами, а так же проследить влияние задействованных факторов. Эти показатели имеют широкое применение в обработке статистических данных для достижения наилучших показателей биржевых ставок.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Андронов, А.М. Теория вероятностей и математическая статистика: Учебник / А.М. Андронов. – Спб.: Питер, 2008. – 464 с.
2. Букин, Л.Л. Статистика: Учебное пособие / Л.Л. Букин. – Спб.: Питер, 2007. – 288 с.
3. Володин, И.Н. Лекции по теории вероятностей и математической статистики: Учебник / И.Н. Володин. – Казань.: Издательство Казанского государственного университета, 2007. – 262 с.
4. Гинзбург, А.И. Статистика. Завтра Экзамен: Учебное пособие / А.И. Гинзбург. – Спб.: Питер, 2009. - 128 с.
5. Годин, А.М. Статистика: Учебник / А. М. Годин. – Спб.: Дашко и К, 2010. – 460 с.
6. Гусаров, В.М. Теория статистики: Учебник / В.М. Гусаров. – М.: ЮНИТИ, 2008. – 247 с.
7. Елисеева, Е.И. Общая теория статистики: Учебник / Е.И. Елисеева, М.М. Юзбашев. – М.: Финансы и статистика, 2009. -480 с.
8. Елисеева, Е.И. Статистика: Учебник / Е.И. Елисеева. – Спб.: Питер, 2010. – 368 с.
9. Ибрагимов, Н.М. Эконометрия: регрессионный анализ: Учебник / Н.М. Ибрагимов. – Спб.: Питер, 2008. – 264 с.
10. Кленин, А.Н. Математическая статистика для экономистов-статистиков: Учебник / А.Н. Кленин, К.К. Шевченко. – М.: Наука, 2006. – 248 с.
11. Колемаев, В.А. Теория вероятностей и математическая статистика: Учебник / В.А. Колемаев, О.В. Староверов, В.Б. Турундаевский. – М.: Просвещение, 2008. – 357 с.
12. Красс, М.С. Математические методы и модели для магистрантов экономики: Учебное пособие / М.С. Красс. – Спб.: Питер, 2006. – 496 с.
13. Нименья, И.Н. Статистика: Учебное пособие / И.Н. Нименья. – Спб.: Издательский Дом Нева, 2006. – 320 с.
14. Улитина, Е.В. Статистика: Учебное пособие / Е.В. Улитина. – Спб.: МПФА, 2009. – 312.
15. Шмойловая, Р.А. Теория статистики: Учебник / Р.А. Шмойловая. – М.: Финансы и статистика, 2007. – 510 с.
16. Шмойловая, Р.А. Практикум по теория статистики: Учебник / Р.А. Шмойловая. – М.: Финансы и статистика, 2008. – 456 с.
[1] Гусаров В.М. Теория статистики. – М., 2008. – С. 183
[2] Кленин А.Н. Математическая статистика для экономистов-статистиков. – М., 2006. – С. 125
[3] Елисеева Е.И. Общая теория статистики. – М., 2009. - С.324
[4] Гусаров В.М. Теория статистики. – М., 2008. – С. 186
[5] Гусаров В.М. Теория статистики. – М., 2008. – С. 194
[6] Елисеева Е.И. Общая теория статистики. – М., 2009. - С.336
[7] Володин И.Н. Лекции по теории вероятностей и математической статистики. – Казань., 2007. – С. 154
[8] Гусаров В.М. Теория статистики. – М., 2008. – С. 204
[9] Володин И.Н. Лекции по теории вероятностей и математической статистики. – Казань., 2007. – С. 165
[10] Гусаров В.М. Теория статистики. – М., 2008. – С. 210
[11] Кленин А.Н. Математическая статистика для экономистов-статистиков. – М., 2006. – С. 134
[12] Володин И.Н. Лекции по теории вероятностей и математической статистики. – Казань., 2007. – С. 174
[13] Володин И.Н. Лекции по теории вероятностей и математической статистики. – Казань., 2007. – С. 201
[14] Елисеева Е.И. Общая теория статистики. – М., 2009. - С.347
[15] Колемаев В.А. Теория вероятностей и математическая статистика. – М., 2008. – С. 221
[16] Шмойловая Р.А. Теория статистики. – М., 2007. – С. 317
[17] Елисеева Е.И. Общая теория статистики. – М., 2009. - С.401
[18] Шмойловая Р.А. Теория статистики. – М., 2007. – С. 324
[19] Кленин А.Н. Математическая статистика для экономистов-статистиков. – М., 2006. – С. 158
[20] Колемаев В.А. Теория вероятностей и математическая статистика. – М., 2008. – С. 242
[21] Шмойловая Р.А. Теория статистики. – М., 2007. – С. 331
[22] Колемаев В.А. Теория вероятностей и математическая статистика. – М., 2008. – С. 254
[23] Шмойловая Р.А. Практикум по теория статистики. – М., 2008. – С. 85
[24] Шмойловая Р.А. Практикум по теория статистики. – М., 2008. – С. 87