Реферат Методы математической статистики 2
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Введение.
Психология получила статус науки благодаря эксперименту и использованию математики при обработке экспериментальных данных и психологических исследований. Математика в психологии служит таким логическим инструментом доказательства, давая возможность научного понимания психологических закономерностей и более глубокого их анализа Математическая статистика - область современной математики, основанная на теории вероятностей и занятая поиском законов изменения и способов измерения случайных величин, обоснованием методов расчетов, производимых с такими величинами.
Математическая статистика возникла (XVII в) и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина XIX - начало XX в) обязано, в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, а также К. Гауссу, А. Кетле, Ф. Гальтону, К. Пирсону и др.
В XX в. Наиболее существенный вклад в математическую статистику был сделан советскими математиками (В.И. Романовский, Е.Е. Слуцкий, А.Н. Колмогоров, Н.В. Смирнов), а также английскими (Стъюдент, Р. Фишер, Э. Пирсон) и американскими (Ю. Нейман, А. Вальд) учеными.
Еще в середине XIX начале XX века наблюдается, правда, еще не вполне регулярные, но, тем не менее, приносящие обоюдную пользу, - попытки провести аналогии между психологическими и физическими исследованиями, особенно в области построения лабораторного эксперимента, анализа и обработки экспериментальных данных. Почти одновременно в психологию и физику приходят вероятностные и статистические методы, теория дифференциальных уравнений, вариационное исчисление и другие. О том, чтобы математически описать деятельность мозга мечтал И.П. Павлов.
Благодаря проникновению в количественные свойства психических явлений, психология получила множество логических доказательств, которые явились
научным обоснованием изучения психики человека. Именно поэтому математика как строгая логическая дисциплина необходима любому специалисту, практикующемуся в области психологии. Современная математическая статистика представляет собой большую и сложную систему знаний. Нельзя рассчитывать на то, что каж
дый психолог овладеет этими знаниями. Статистики разработали целый комплекс простых методов, которые совершенно доступны любому квалифицированному специалисту психологу.
Все необходимые для их применения вычисления можно вы
полнять вручную или на компьютере. Уместное грамотное применение этих методов позволит практику и исследователю, во всяком случае проведя начальную обработку, получить общую картину того, что дают количественные результаты его исследований, оперативно проконт
ролировать ход исследований. Статистические методы раскрывают связи между изучаемыми яв
лениями. Однако необходимо твердо знать, что, как бы ни была высока вероятность таких связей, они не дают права исследователю признать их причинно-следственными отношениями. Чтобы подтвердить или отвергнуть существование причинно-след
ственных отношений, исследователю зачастую приходится продумы
вать целые серии экспериментов. Если они будут правильно постро
ены и проведены, то статистика поможет извлечь из результатов этих экспериментов информацию, которая необходима исследователю, что
бы либо обосновать и подтвердить свою гипотезу, либо признать ее недоказанной.
Математическая статистика также нужна психологу не только для проведения научных исследований, а постоянно в его повседневной работе.
Далее в этой работе мы рассмотрим только самые первые ступени длинной
и крутой лестницы которую нужно преодолеть на пути к уверенному применению математических методов.
Основные понятия , используемые в математической обработке психологических данных.
1)генеральная совокупность и выборка
2) признаки и переменные.
3) шкалы измерения.
4) статистические гипотезы.
5) статистические критерии.
В математической статистике выделяют два фундаментальных понятия: генеральная совокупность и выборка.
Совокупностью – называется практически счетное множество некоторых объектов или элементов, интересующих исследователя;
Свойством совокупности называется реальное или воображаемое качество, присущее некоторым всем ее элементам. Свойство может быть случайным или неслучайным. Параметром совокупности называется свойство, которое можно квантифицировать в виде константы или переменной величины. Гомогенной или однородной называется совокупность, все характеристики которой присущи каждому ее элементу; Гетерогенной или неоднородной называется совокупность, характеристики которой сосредоточены в отдельных подмножествах элементов.
Важным параметром является объем совокупности – количество образующих ее элементов. Величина объема зависит от того, как определена сама совокупность, и какие вопросы нас конкретно интересуют. Понятно, что совокупности большого объема можно исследовать только выборочным путем.
Выборкой называется некоторая часть генеральной совокупности, то, что непосредственно изучается. Выборки классифицируются по репрезентативности, объему, способу отбора и схеме испытаний. Репрезентативная – выборка адекватно отображающая генеральную совокупность в качественном и количественном отношениях.Иными словами репрезентативная выборка представляет собой меньшую по размеру , но точную модель той генеральной совокупности которую она должна отражать , иначе результаты не совпадут с целями исследования [ 4; 33 ].
Репрезентативность зависит от объема, чем больше объем, тем выборка репрезентативней.
По схеме испытаний – выборки могут быть независимые и зависимые.
По объему выборки делят на малые и большие. К малым относят выборки, в которых число элементов n ≤ 30. Понятие большой выборки не определено, но большой считается выборка в которой число элементов > 200 и средняя выборка удовлетворяет условию 30≤ n≤ 200. Это деление условно.
2. Признаки и переменные - это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности, интенсивность агрессивных реакций, угол поворота корпуса в беседе, показатель социометрического статуса и множество других переменных. Понятия признака и переменной могут использоваться как взаимозаменяемые. Они являются наиболее общими. Иногда вместо них используются понятия показателя или уровня, например уровень настойчивости, показатель вербального интеллекта и др.
Математическая обработка - это оперирование со значениями признака, полученными у испытуемых в психологическом исследовании. Такие индивидуальные результаты называют также "наблюдениями", "наблюдаемыми значениями", "вариантами", "датами" и др. значение признака определяется при помощи специальных шкал измерения.
3. Шкалы измерения. Измерение - это приписывание числовых форм объектами или событиям в соответствии с определенными правилами.
С. Стивенсом предложена классификация из 4 типов шкал измерения:
а) Номинативная, или номинальная, или шкала наименований;
б) Порядковая, или ординальная, шкала;
в) Интервальная, или шкала равных интервалов;
г) Шкала равных отношений.
Шкала наименований
. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству. При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характеристик.
Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка - это видно из ее названия - именно на эту последовательность переключается все внимание. К этой шкале в статистике относят такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше - меньше, выше - ниже и т.п.
Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Например, в опытах учитывалось, сколько точек могут поставить, работая с максимально доступной скоростью, испытуемые. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным поставить за отведенное время каждому участнику опытов. Главная трудность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повторных изменениях тождественной самой себе, т.е. одинаковой и неизменной.
Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой ведется отчет. При изучении психологических объектов эта шкала практически неприменима.
4. Статистические гипотезы. Формулирование гипотез систематизирует предположения исследователя и представляет их в четком и лаконичном виде. Благодаря гипотезам исследователь не теряет путеводной нити в процессе расчетов и ему легко понять после их окончания, что, собственно, он обнаружил. Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.
Нулевая гипотеза - это гипотеза об отсутствий различий. Она обозначается как Н0 и называется нулевой потому, что содержит число 0: Х1 - Х2 = 0, где Х1, Х2 - сопоставляемые значения признаков. Нулевая гипотеза - это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.
Альтернативная гипотеза - это гипотеза о значимости различий. Она обозначается как Н1. альтернативная гипотеза - это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.
Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.
5. Статистические критерии. Статистический критерий - это правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью. Статистический критерий обозначает метод расчета определенного числа и само это число. Среди возможных статистических критериев выделяют: односторонние и двусторонние,
параметрические и непараметрические, более и менее мощные.
Параметрические критерии - это критерии, включающие в формулу расчета параметры распределения, то есть средние и дисперсии (t-критерий Стъюдента, критерий F и др.) Непараметрические критерии - это критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий-Q Розенбаума, критерий-Т Вилкоксона и др.)
Параметрические критерии и непараметрические критерии имеют свои преимущества и недостатки.
Параметрические критерии могут оказаться несколько более мощными, чем непараметрические, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Лишь с некоторой натяжкой мы можем считать данные, представленные в стандартизованных оценках, как интервальные. Кроме того, проверка распределения «на
нормальность» требует достаточно сложных расчетов, результат которых заранее не известен. Может оказаться, что распределение признака отличается от нормального, и нам так или иначе все равно придется обратиться к непараметрическим критериям.
Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. [ 1; 16 ]
Статистический анализ экспериментальных данных
Рассматрим в самых общих чертах три главных раздела статистики.
Описательная статистика, как следует из названия, позволяет описывать, подытоживать и воспроизводить в виде таблиц или графиков данные того или иного распределения, вычислять среднее для данного распределения и его размах и дисперсию.
Задача индуктивной статистики — проверка гипотезы о том, можно ли распространить результаты, полученные на данной выборке, на всю популяцию (генеральную совокупность), из которой взята эта выборка. Иными словами, правила этого раздела статистики позволяют выяснить, до какой степени можно путем индукции обобщить на большее число объектов ту или иную закономерность, обнаруженную при изучении их ограниченной группы в ходе какого-либо наблюдения или эксперимента. Таким образом, при помощи индуктивной статистики делают какие-то выводы и обобщения, исходя из данных, полученных при изучении выборки.
Наконец, измерение корреляции позволяет узнать, насколько связаны между собой две переменные, с тем чтобы можно было предсказывать возможные значения одной из них, если мы знаем другую.
Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. В частности, в обработке данных, получаемых при испытаниях по психологической диагностике, это будет информация индивидуально-психологических особенностях испытуемых.
Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности. Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.
Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например, выборочное среднее, выборочная дисперсия, мода, медиана и ряд других. Иные методы математической статистики, например, дисперсионный анализ, регрессионный анализ, позволяют судить о динамике изменения отдельных статистик выборки. С помощью третьей группы методов, скажем, корреляционного анализа, факторного анализа, методов сравнения выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте.
Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под первичными статистическими показателями имеются в виду те, которые применяются в самих психодиагностических методиках и являются итогом начальной статистической обработки результатов психодиагностики. С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.
Методы первичной статистической обработки результатов эксперимента
К первичным методам статистической обработки относят, например, определение выборочной средней величины, выборочной дисперсии, выборочной моды и выборочной медианы. Рассмотрим методы вычисления элементарных математических статистик, начав с выборочного среднего.
Выборочное среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.
Дисперсия как статистическая величина характеризует, на сколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных. Иногда вместо дисперсии для выявления разброса частных данных относительно средней используют производную от дисперсии величину, называемую выборочное отклонение. Оно равно квадрат ному корню, извлекаемому из дисперсии, и обозначается тем же самым знаком, что и дисперсия, только без квадрата - :
Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков.Модой называют количественное значение исследуемого признака , наиболее часто встречающегося в выборке .
Выборочное среднее (среднее арифметическое) значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.
Выборочное среднее определяется при помощи следующей формулы:
где х - выборочная средняя величина или среднее арифметическое значение по выборке; n - количество испытуемых в выборке или частных психодиагностических показателей, на основе которых вычисляется средняя величина; хk - частные значения показателей у отдельных испытуемых. Всего таких показателей n, поэтому индекс k данной переменной принимает значения от 1 до n; ∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака. Выражение соответственно означает сумму всех х с индексом k, от 1до n. В психодиагностике и в экспериментальных психолого-педагогических исследованиях среднее, как правило, не вычисляется с точностью, превышающей один знак после запятой, т.е. с большей, чем десятые доли единицы. В психодиагностических обследованиях большая точность расчетов не требуется и не имеет смысла, если принять во внимание приблизительность тех оценок, которые в них получаются, и достаточность таких оценок для производства сравнительно точных расчетов.
Мода.Числовой характеристикой выборки, как правило, не требующей вычислений, является так называемая мода. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке. Для симметричных распределений признаков, в том числе для нормального распределения, значение моды совпадает со значениями среднего и медианы. Для других типов распределении, несимметричных, это не характерно. К примеру, в последовательности значений признаков 1, 2, 5, 2, 4, 2, 6, 7, 2 модой является значение 2, так как оно встречается чаще других значений - четыре раза.
Моду находят согласно следующим правилам:
1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 - в этой выборке моды нет.
2) Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина =3,5
3) Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной.
Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод).
4) Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа называется модальной группой.
Медиана. Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков. Например, для выборки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой будет значение 5, так как слева и справа от него остается по четыре показателя. Если ряд включает в себя четное число признаков, то медианой будет среднее, взятое как полусумма величин двух центральных значений ряда. Для следующего ряда 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медиана будет равна 3,5.
Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга. Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.
Разброс выборки. Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е.
R= хmax - хmin
Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот. Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:
Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40
Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40
При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.
Дисперсия. Дисперсия - это среднее арифметическое квадратов отклонений значений переменной от её среднего значения.
Дисперсия как статистическая величина характеризует, насколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных.
где 5 - выборочная дисперсия, или просто дисперсия;
2 (……) - выражение, означающее, что для всех х, от первого до последнего в данной выборке необходимо вычислить разности между частными и средними значениями, возвести эти разности в квадрат и просуммировать;
п - количество испытуемых в выборке или первичных значений, по которым вычисляется дисперсия. Однако сама дисперсия, как характеристика отклонения от среднего, часто неудобна для интерпретации.
Стандартное отклонение. Для того, чтобы приблизить размерность дисперсии к размерности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.
Из суммы квадратов, делённых на число членв ряда извлекаеся квадратный корень.
Иными словами стандартное отклонение есть квадратный корень из дисперсии. Стандартное отклонение является более удобным показателем в
отличие от дисперсии. Для многих распределений мы можем приблизительно
знать, какой процент данных лежит внутри одного, двух, трех и более
стандартных отклонений среднего. [ 3; 7 ]
Иногда исходных частных первичных данных, которые подлежат статистической обработке, бывает довольно много, и они требуют проведения огромного количества элементарных арифметических операций. Для того чтобы сократить их число и вместе с тем сохранить нужную точность расчетов, иногда прибегают к замене исходной выборки частных эмпирических данных на интервалы. Интервалом называется группа упорядоченных по величине значений признака, заменяемая в процессе расчетов средним значением.
Вторичные методы обработки материалов психологических исследований.
С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики. Обсуждаемую группу методов можно разделить на несколько подгрупп:
1. Регрессионное исчисление.
2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т.п.), относящихся к разным выборкам.
3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом.
4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ).
Регрессионный анализ. Регрессионное исчисление - это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой
переменной [ 6;556 ].
Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшие предсказания зависимой переменой (Y) по независимым переменным (X).
Регрессию выражают с помощью двух уравнений регрессии, которые в самом прямом случае выглядят, как уравнения прямой.
Y = a 0 + a 1 * X (1)
X = b 0 + b 1 * Y (2)
В уравнении (1) Y - зависимая переменная, X - независимая переменная, a 0 - свободный член, a 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
В уравнении (2) X - зависимая переменная, Y - независимая переменная, b 0 - свободный член, b 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
Количественное представление связи (зависимости) между Х и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается в нахождении коэффициентов a 0, b 0, a1и b 1 и определении уровня значимости полученных аналитических выражений, связывающих между собой переменные Х и У.
При этом коэффициенты регрессии a 1 и b 1 показывают, насколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициент регрессии a 1 в уравнении можно подсчитать по формуле:
а коэффициент b 1 в уравнении по формуле
где ryx - коэффициент корреляции между переменными X и Y;
Sx - среднеквадратическое отклонение, подсчитанное для переменной X;
Sy - среднеквадратическое отклонение, подсчитанное для переменной У/
Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:
1. Сравниваемые переменные Х и Y должны быть измерены в шкале интервалов или отношений.
2. Предполагается, что переменные Х и Y имеют нормальный закон распределения.
3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым. [ 4 ; 263 ].
Корреляционный анализ . Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости. [6;576]
Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идёт о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией.
Имеется несколько разновидностей данного метода: линейный, ранговый, парный и множественный. Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название "линейный". Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Парный корреляционный анализ включает изучение корреляционных зависимостей только между парами переменных, а множественный, или многомерный, - между многими переменными одновременно. Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ. [6; 577 ]
Коэффициент линейной корреляции определяется при помощи следующей формулы:
где rxy - коэффициент линейной корреляции;
х, у - средние выборочные значения сравниваемых величин;
хi, уi - частные выборочные значения сравниваемых величин;
n - общее число величин в сравниваемых рядах показателей;
S2x, S2y - дисперсии, отклонения сравниваемых величин от средних значений.К коэффициенту ранговой корреляции в психолого-педагогических исследованиях обращаются в том случае, когда признаки, между которыми устанавливается зависимость, являются качественно различными и не могут быть достаточно точно оценены при помощи так называемой интервальной измерительной шкалы. Большинство показателей, которые получают в психолого-педагогических исследованиях, относятся к порядковым, а не к интервальным шкалам (например, оценки типа "да", "нет", "скорее нет, чем да" и другие, которые можно переводить в баллы), поэтому коэффициент линейной корреляции к ним неприменим. В этом случае обращаются к использованию коэффициента ранговой корреляции, формула которого следующая:
где Rs - коэффициент ранговой корреляции по Спирмену;
di - разница между рангами показателей одних и тех же испытуемых в упорядоченных рядах;
n - число испытуемых или цифровых данных (рангов) в коррелируемых рядах.
Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы.
Для применения частного коэффициента корреляции необходимо соблюдать следующие условия:
1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.
2. Предполагается, что все переменные имеют нормальный закон распределения.
3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.
4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (11.9) и таблицей критических значений для t-критерия Стьюдента при k = n - 2. [ 4 ; 253 ] Корреляционный анализ позволяет обнаружить наличие связи но не даёт оснований для установления причинно- следственных отношений.
Факторный анализ . Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.
Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, "сырых", экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.
Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. Элементы факторной матрицы называется «факторными нагрузками или весами».При этом факторный вес демонстрирует меру или тесноту этой связи. [ 4; 276]
С помощью выявленных факторов объясняют взаимозависимость психологических явлений.
Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок. [6; 283 ]
Факторный анализ может быть уместен, если выполняются следующие критерии.
1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.
2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.
3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.
4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.
5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.
Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых. [4;283].
В теоретическом плане использование факторного анализа связано с разработкой так называемого факторно-аналитического подхода к изучению структуры личности, темперамента и способностей. Использование факторного анализа в этих сферах основано на широко принятом допущении, согласно которому наблюдаемые и доступные для прямого измерения показатели являются лишь косвенными и/или частными внешними проявлениями более общих характеристик. Эти характеристики, в отличие от первых, являются скрытыми, так называемыми латентными переменными, поскольку они представляют собой понятия или конструкты, которые не доступны для прямого измерения. Однако они могут быть установлены путем факторизации корреляционных связей между наблюдаемыми чертами и выделением факторов, которые (при условии хорошей структуры) можно интерпретировать как статистическое выражение искомой латентной переменной.
Заключение.
Как говорит Мак-Коннелл, статистика — это прежде всего способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики. В нашей повседневной жизни мы, сами о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы спланировать бюджет, рассчитать потребление бензина автомашиной, оценить усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, предусмотреть вероятность хорошей и плохой погоды по метеорологической сводке или вообще оценить, как повлияет то или иное событие на наше личное или совместное будущее, — нам постоянно приходится отбирать, классифицировать и упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.
Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении с целью выяснить черты различия между ними, в их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Именно в этом заключается цель статистики в науках вообще, особенно в гуманитарных. В последних нет ничего абсолютно достоверного, и без статистики выводы в большинстве случаев были бы чисто интуитивными и не могли бы составлять солидную основу для интерпретации данных, полученных в других исследованиях. Если данные, полученные в эксперименте, качественного характера, то правильность делаемых на основе их выводов полностью зависит от интуиции, эрудиции и профессионализма исследователя, а также от логики его рассуждений. Если же эти данные количественного типа, то сначала проводят их первичную, а затем вторичную статистическую обработку. Первичная статистическая обработка заключается в определении необходимого числа элементарных математических статистик. Такая обработка почти всегда предполагает как минимум определение выборочного среднего значения. В тех случаях, когда информативным показателем для экспериментальной проверки предложенных гипотез является разброс данных относительного среднего, вычисляется дисперсия или квадратическое отклонение. Значение медианы рекомендуется вычислять тогда, когда предполагается использовать методы вторичной статистической обработки, рассчитанные на нормальное распределение, Для такого рода распределения выборочных данных медиана, а также мода совпадают или достаточно близки к средней величине. Этим критерием можно воспользоваться для того, чтобы приблизительно судить о характере полученного распределения первичных данных.
Вторичная статистическая обработка (сравнение средних, дисперсий, распределений данных, регрессионный анализ, корреляционный анализ, факторный анализ и др.) проводится в том случае, если для решения задач или доказательства предложенных гипотез необходимо определить статистические закономерности, скрытые в первичных экспериментальных данных. Приступая к вторичной статистической обработке, исследователь прежде всего должен решить, какие из различных вторичных статистик ему следует применить для обработки первичных экспериментальных данных. Решение принимается на основе учета характера проверяемой гипотезы и природы первичного материала, полученного в результате проведения эксперимента. Если экспериментальная гипотеза содержит предположение о том, что в результате проводимого психолого-педагогического исследования возрастут (или уменьшатся) показатели какого-либо качества, то для сравнения до - и постэкспериментальных данных рекомендуется использовать критерий Стъюдента или χ2-критерий. К последнему обращаются в том случае, если первичные экспериментальные данные относительны и выражены, например, в процентах.
Если экспериментально проверяемая гипотеза включает в себя утверждение о причинно-следственной зависимости между некоторыми переменными, то её целесообразно проверять, обращаясь к коэффициентам линейной или ранговой корреляции. Линейная корреляция используется в том случае, когда измерения независимой и зависимой переменных производятся при помощи интервальной шкалы, а изменения этих переменных до и после эксперимента небольшие. К ранговой корреляции обращаются тогда, когда достаточно оценить изменения, касающиеся порядка следования друг за другом по величине независимых и зависимых переменных, или когда их изменения достаточно велики, или когда измерительный инструмент был порядковым, а не интервальным.
Иногда гипотеза включает предположение о том, что в результате эксперимента возрастут или уменьшатся индивидуальные различия между испытуемыми. Такое предположение хорошо проверяется с помощью критерия Фишера, позволяющего сравнить дисперсии до и после эксперимента. Результаты количественного и качественного анализа материала, полученного в ходе проведения эксперимента, первичной и вторичной статистической обработки этого материала, используются для доказательства правильности предложенных гипотез. Выводы об их истинности являются логическим следствием доказательства, в процессе которого в качестве основного аргумента выступает безупречность логики самого доказательства, а в качестве фактов - то, что установлено в результате количественного и качественного анализа экспериментальных данных.
Факты в ходе доказательства обязательно должны соотноситься с гипотезами. В процессе такого соотнесения выясняется, насколько полно имеющиеся факты доказывают, подтверждают предложенные гипотезы.
В заключении хочется сказать , что психологу никогда не бывает скучно , потому что он всегда изучает и исследует – людей , ситуации , самого себя. Он постоянно ищет свой путь в выявлении новых закономерностей и фактов. Методы математической статистики могут оказать на этом пути неоценимую помощь , но они лишь средство . которое не должно заслонить собою цель. Необходимо помнить , что достоверная статистическая тенденция – это всё же не психологическая закономерность , что могут быть закономерности более высокого порядка , чем те что выявляются с помощью математических методов.
Если продолжить аналогию С.Стивенса с верёвочной лестницей , то мы используем верёвочную лестницу чтобы подняться наверх , хотя знаем , что и без неё можем летать. Главное чтобы из-за привязанности к верёвочной лестнице мы не утратили этой способности к полёту.[7; 304].
Немов Р.С. Психология. Кн.3: Психодиагностика. Введение в научное психологическое исследование с элементами математической статистики. - М.: ВЛАДОС, 1998. – 632 с.