Реферат Критерии оценки качества тестовых процедур
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
1.Критерии оценки качества тестовых процедур.
За несколько десятилетий, истекших с момента, когда задача интенсивной разработки психодиагностических методик вновь была выдвинута в число наиболее актуальных проблем психологии, по рассматриваемой проблеме проделана значительная работа. В публикациях Б.Г. Ананьева; А.А. Бодалева, М.Д. Дворяшиной, И.М. Палея; Д.Б. Богоявленской; В.М. Блейхера и Л.Ф. Бурлачука; Л.А. Венгера; П.Я. Гальперина; К.М. Гуревича; В.В.Давыдова; Ю.М. Забродина; Г.М. Зараковского; И.И. Ивановой и В.Г. Асеева; 3.И. Калмыковой; А.Г. Ковалева и В.Н. Мясищева; Б.Б. Коссова; Г.С. Костюка; А.Н. Леонтьева; Б.Ф. Ломова; Н. А. Менчинской; В.Г. Норакидзе; А.В. Петровского; К.К. Платонова; Я.А. Пономарева; А.И. Раева и Л.А. Регуш; Е.Ф. Рыбалко; А.А. Смирнова и Е.И. Степановой; Ю.Л. Сыэрда; Я.Ф. Талызиной; Б.М. Теплова; Д.Б. Эльконина; В.А. Ядова; И.С. Якиманской и других исследователей сформулированы наиболее общие требования, реализация которых должна, по мысли авторов, обеспечить оптимизацию тестовых методик по критериям их научной достоверности и практической эффективности.
Значительное число исследований посвящено разработке критериально-оценочного аппарата тестологии. В них обсуждаются широко известные и теперь уже общепринятые положения, касающиеся критериев качества психологических тестов. Такими критериями являются: надежность, валидностъ, объективность, прогностическая ценность, а также доступность и удобство практического использования. Начнем с характеристики последних критериев, поскольку по отношению к ним не возникает каких-либо вопросов.
Критерий объективности применительно к психологическим тестам имеет три значения. Два из них являются общими для всех психологических тестов:
1. стандартность условий тестирования по отношении ко всем испытуемым;
2. строгая регламентация процедуры оценивания, обусловливающая выставление одной и той же оценки за данный результат любым количеством оценщиков.
3. Третье значение — специфическое для личностных тестов — заключается в обеспечении независимости результатов теста от возможных попыток их сознательного искажения испытуемым.
Под доступностью и удобством практического использования понимаются прежде всего относительная простота и кратковременность процедуры тестирования и оценивания, отсутствие высоких требований к квалификации персонала, осуществляющего тестирование, а также дешевизна стимульной части теста (аппаратов, оборудования, буклетов и т. д.).
Что касается прогностической ценности, то это — одно из основных требований к тестам — исходит от заинтересованных практиков, и в течение уже многих лет представляет собой основную «область уязвимости» для критиков-теоретиков. Вместе с тем в отечественной литературе имеется особое мнение о специфике прогностической ценности тестовых измерений. Здесь речь идет о возможности использовать данные психодиагностики для прогноза поведения субъекта:
· в другой ситуации;
· в «другом субъекте»;
· в другое время;
· в другой задаче.
Выделяются два типа прогноза: эмпирический, основанный на принципе простого «переноса» данных в области «малых изменений», и теоретический, основанный на применении теоретических моделей явлений. Если эмпирический прогноз теснейшим образом связан с идеей «подобия» ситуаций, субъектов, движений во времени и в пространстве задач, то теоретический прогноз оказывается связанным с проблемой интерпретации и «силой и мощностью» теоретической модели. Эта проблема затрагивает проблемы «перекрестной валидизации» и непосредственное отношение к связке: «Данные тестового измерения - математическая модель обработки данных - психологическая модель явления (субъекта) - психическая регуляция поведения - прогноз поведения».
К числу основных критериев оценки психодиагностических методик относится надежность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.
В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик.
Надежность
(
reliability
— англ.) теста — это характеристика точности его как измерительного инструмента, устойчивости его к действиям помех (состояния испытуемых, их отношение к процессу тестирования и др.). При разработке теста на базе репрезентативной выработки исследователь отбирает задачи, вопросы (или модифицирует их) таким образом, чтобы распределение реальных тестовых оценок было бы по возможности близко к нормальному. Величина дисперсии в этом случае считается истинной и обозначается через D
или s2.
Надежность теста - это одна из характеристик качества теста, показывающая, насколько точно измеряет данный тест изучаемое явление, его "помехоустойчивость". Понятие надежности подразумевает согласованность результатов проведения теста на одной и той же группе тестируемых при разных условиях.
Категория надежности тесно связана с точностью измерения, то есть чем выше надежность, тем точнее результаты тестирования.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.);
3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие шумов и т.д.);
4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т.д.);
6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
Каждый член тестированной выборки занимает свое определенное место на шкале «сырых» оценок и шкале стандартных отклонений. Теоретически это место для каждого члена выборки должно быть постоянно. Повторное выполнение теста теми же испытуемыми должно давать такое же распределение мест на указанных шкалах, как и в первый раз. В этом идеальном случае тест считаться абсолютно надежным. На практике оценка и места испытуемых в результате повторного тестирования часто меняются. Распределение в этом случае в большей степени отличается от нормального, чем исходное, принятое за эталонное, истинное.
Для такого распределения величина дисперсии выше, чем s
2
на величину дисперсии ошибки измерения: s
2
^ =s2 + s22.
Надежность теста определяется, как правило, по окончании процедуры анализа задач и составления окончательной формы теста. Метод повторного тестирования (ретестирования) является основным при определении надежности теста. Метод повторного тестирования чаще всего находит применение при контроле надежности скоростных тестов и опросников. Наиболее простой способ нахождения коэффициента надежности заключается в расчете коэффициента полной корреляции (по Пирсону) между результатами первого и второго тестирования у группы испытуемых.
Тест считается надежным, когда коэффициент надежности находится в пределах 0,6±0,1. Случаи, когда коэффициент < 0,6, должны рассматриваться особо.
Величина коэффициента надежности определяется величиной изменения оценок испытуемых на шкале в результате вторичного тестирования по сравнению с первичным. Следовательно, чем ближе оценки первичного и вторичного тестирования, тем выше точность измерения и, соответственно, надежность теста как измерительного инструмента.
На практике используются три основных метода оценки надежности тестов:
1) повторное тестирование (ретестирование);
2) параллельное тестирование (тестирование параллельной формой теста);
3) расщепление (метод деления целого на части).
Рассмотрим каждый из них в отдельности.
Метод повторного тестирования (ретестирования) является основным при определении надежности психологических тестов. Однако применение его к тестам достижений ограничено. Этот метод предусматривает повторное тестирование через некоторый промежуток времени. Надежность теста вычисляется как мера сохранения соотношений оценок испытуемых от первого ко второму испытанию, то есть выявляется характер корреляции между результатами двух проверок.
Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. Основным недостатком метода является неопределенность в выборе интервала между двумя тестированиями. Это связано с тем, что повторное тестирование отличается от первого. Испытуемые уже знакомы с содержанием теста, они могут помнить свои первоначальные ответы и ориентироваться на них при повторном выполнении. Поэтому при повторном тестировании нередко наблюдается или "подгонка" под первоначальный результат, или демонстрация абсолютно новых решений, как проявление испытуемым негативизма. В результате на месте старых возникают новые ошибки.
Для того, чтобы максимально снизить возможность возникновения новых ошибок, рекомендуется проводить ретестирование через достаточно длительные интервалы времени. Разные исследователи рекомендуют проводить повторное тестирование в интервале от двух недель до шести месяцев. Если такой возможности нет, то лучше отказаться от ретестирования и использовать другие методы определения надежности.
Существует несколько условий, влияющих на величину коэффициента надежности, при выявлении хотя бы одного из которых от метода ретестировая необходимо отказаться:
- запоминаемость содержания задач и способов их решения;
- интересность и оригинальность задач;
- небольшое количество задач;
- небольшое время между первым и вторым проведением теста.
Снижение коэффициента надежности при увеличении времени ретестирования говорит о функциональной неустойчивости теста.
Второй метод - метод определения надежности при тестировании параллельной формой теста — наиболее приемлем для тестов достижений. Параллельными считаются такие тесты, которые измеряют одно и то же свойство с одинаковой ошибкой. Многие тесты имеют параллельные формы, направленные на измерение одного и того же свойства или качества, что для тестов школьных достижений полезно по целому ряду обстоятельств: при наличии параллельной формы упрощается процедура проведения, появляется возможность замены заданий или групп заданий и т.д. Важнейшими признаками параллельности тестов являются следующие:
1.Одинаковая средняя величина результатов измерения. Это означает, что характеристика среднего уровня группы тестируемых не зависит от используемой части теста, и оценки по тесту зависят только от представленности изучаемого свойства у испытуемых.
2.Параллельные тесты имеют одинаковую дисперсию результатов измерения, то есть позволяют получить одинаковую, стандартную оценку результатов измерения.
3.Параллельные тесты имеют одинаковые коэффициенты надежности.
Хорошо составленные параллелельные формы теста взаимозаменяют друг друга. Каждая форма должна обеспечивать испытуемому одно и то же место на шкале выраженности признака.
Важно помнить, что эквивалентность тестов в первую очередь определяется психологическим и педагогическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Параллельные формы тестирования рекомендуется применять в тех случаях, когда либо способ решения одной задачи не может быть прямо использован для решения другой, либо влияние научения в процессе решения задач невелико, либо же задачи не уникальны. Тестирование параллельной формой может проводиться через минимальный интервал времени.
Процедура применения параллельных форм теста такова. Испытуемые делятся на две группы. Проводить это разделение можно либо случайным образом (по алфавиту, номеру, случайным числам и пр.), если число испытуемых достаточно велико, если же число испытуемых небольшое (менее 200), то лучшим способом деления будет деление в зависимости от успешности деятельности, которая определяется по внешнему критерию (например, отобрать из группы испытуемых тех, кто имеет школьную оценку 5 и эту группу поделить пополам случайным образом, затем отобрать группу, которая имеет оценку 4 и разделить пополам эту группу, таким же образом поступить с остальными группами. Возможен и другой способ: всю группу ранжировать по внешнему критерию и уже по этому списку разделить группу пополам по четным и нечетным номерам). Затем одной группе предлагается форма А теста, а другой - форма В. Через несколько дней, но не больше чем через неделю, проводится второе тестирование, причем задания меняются по подгруппам. Результаты сравниваются с помощью расчета коэффициента корреляции.
Третий метод - метод расщепления, или метод деления теста на части, возник как результат развития метода параллельного тестирования и основывается на предположении о параллельности не только форм теста, но и отдельных заданий внутри теста. Он применяется в тех случаях, когда повторное тестирование нежелательно (тесты достижений, некоторые интеллектуальные или творческие тесты) и существует только одна форма теста. Самый простой вариант деления теста — на две части. При этом распределение оценок за выполнение всего теста в целом должно быть близко распределению оценок при выполнении частей теста.
Важнейшим условием объективности этого метода является деление теста на равноценные части. Разделить тест на две части возможно несколькими способами: деление по принципу "чет-нечет"; деление задач теста на основе одинаковых коэффициентов сложности и дискриминации; деление задач в соответствии со временем решения каждой части (в тестах скорости).
Однако только определения надежности теста не достаточно для того, чтобы признать тест готовым к употреблению.
Окончательный вариант теста должен соответствовать требованию внутренней согласованности. Внутренняя согласованность - это характеристика теста, указывающая на степень однородности состава заданий с точки зрения измеряемого качества (то есть все задания теста должны определять тестируемое качество). Для ее определения применяется процедура установления корреляций между результатами теста в целом и каждым отдельным заданием. Например, такая рассогласованность возможна при использовании заданий на выявление структуры интеллекта для тестов достижений. Такие задания нагружены двумя факторами. Например, в случае использования заданий аналогий, если создается тест на выявления владения какими-либо знаниями, а уровень аналогии, заложенный в эту форму заданий слишком сложен, то именно он будет определять успешность выполнения задания. То есть данное задание может быть не выполнено не в силу отсутствия того качества, которое тестируется (знание материала), а в силу неумения выявить аналогию.
Существует, однако, ряд сложностей, связанных с понятием надежности по внутренней согласованности. Высокая внутренняя согласованность может быть противоположностью валидности, как утверждает Кеттелл. Поскольку валидность теста определяется как степень измерения того, для чего он предназначен, то достижение ее должно быть основной целью для разработки тестов. Надежность важна лишь постольку, поскольку она может обеспечивать высокую валидность
В истории тестологии известны случаи, когда тест, признанный невалидным для измерения одних свойств, признавался валидным по отношению к другим. Ненадежный тест не может быть валидным, и наоборот, валидный тест всегда надежен.
К.М. Гуревич, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как:
1) надежность самого измерительного инструмента;
2) стабильность изучаемого признака;
3) константность, т.е. относительную независимость результатов от личности экспериментатора.
Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности, показатель, характеризующий стабильность измеряемого свойства, — коэффициентом стабильности; а показатель оценки влияния личности экспериментатора — коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод "расщепления". Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть — со второй и четвертой и т п. Однако "расщепление" на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75—0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46—0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей специфичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переделать их, либо вообще изъять.
Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следует отметить, что любые изменения в содержании методики — изъятие заданий, их перестановка, переформулировка вопросов или ответов требует заново высчитывать коэффициенты надежности.
При ознакомлении с коэффициентами надежности не следует забывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверялась надежность измерительного инструмента.
В самом деле, в заданиях могут встретиться понятия, малоизвестные одной части испытуемых, но хорошо известные другой части. От того, как много в методике таких понятий, будет зависеть и коэффициент надежности, задания с такими понятиями могут случайно расположиться и в четной и в нечетной половине теста. Очевидно, показатель надежности не следует приписывать только методике как таковой и нельзя уповать на то, что он будет неизменным, с какой бы выборкой ни проводилось тестирование.
2. Определение стабильности изучаемого признака. Определить надежность самой методики — это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленное измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный как тест — ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром, если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т.д.
При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы в памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлении методики уже нельзя рассматривать как независимые.
Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, может определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода.) При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.
Важно помнить, что коэффициент стабильности не следует рассматривать только с его узко формальной стороны, по его абсолютным значениям. Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (например, умение проводить обобщения), то коэффициент стабильности, может оказаться невысоким, но это не следует истолковывать как недостаток теста. Такой коэффициент стабильности должен интерпретироваться как показатель определенных изменений, развития исследуемого свойства. В этом случае, например, К.М. Гуревич рекомендует рассмотреть по частям ту выборку, на которой устанавливался коэффициент стабильности. При таком рассмотрении выделится часть испытуемых, проходящих путь развития в одинаково ровном темпе, другая часть — где развитие шло особенно быстрыми темпами; и часть выборки, где развитие у испытуемых практически совсем нельзя заметить. Каждая часть выборки заслуживает специального анализа и истолкования. Следовательно, недостаточно просто констатировать, что коэффициент стабильности низкий, нужно понять, от чего это зависит.
Совсем другое требование предъявляется к коэффициенту стабильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффициент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).
Таким образом, вопрос о стабильности измеряемого свойства решается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.
4.Определение константности, т е относительной независимости результатов от личности экспериментатора. Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т.п ).
Особенно существенную роль личность экспериментатора играет при проведении так называемых недетерминированных методик (например, в проективных тестах).
Хотя в тестологической практике критерием константности пользуются нечасто, однако, по мнению КМ Гуревича, это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании психодиагностических методик осуществлять проверку каждого из них? В зарубежной литературе идет дискуссия по этому поводу. Одни исследователи считают, что все способы определения надежности теста в какой-то мере идентичны и поэтому достаточно проверить надежность методики каким-нибудь одним из них. Например, автор неоднократно переиздававшейся в США книги по статистике для психологов и педагогов Г. Гэррет не находит принципиальных различий между способами проверки надежности. По его мнению, все эти способы показывают воспроизводимость тестовых показателей. Иногда тот, иногда другой обеспечивает лучший критерий. Другие исследователи придерживаются иной точки зрения. Так, авторы "Стандартных требований к педагогическим и психологическим тестам" в главе "Надежность" отмечают, что коэффициент надежности в современном понимании — это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К.М. Гуревич. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.
Несмотря на все возрастающее внимание к проблеме надежности, многие ее аспекты остаются недостаточно разработанными, дискуссионными. Как отмечается в одной из последних работ по психологическому тестированию, изданных за рубежом, в течение многих десятилетий усилия исследователей концентрировались главным образом на совершенствовании методов, посредством которых оценивается согласованность измерения, и лишь сравнительно недавно взоры стали обращаться к вопросам, связанным с установлением причин, обусловливающих недостаточную надежность тех или иных тестов.
Поэтому и в подходах к трактовке различных аспектов этого понятия, в интерпретации конкретных коэффициентов надежности, наконец, в понимании взаимосвязи надежности и валидности все еще сохраняется немало спорных, а то и просто неосвещенных моментов. В частности, недостаточно четко специфицированы отдельные аспекты надежности, сохраняются «белые пятна» и в вопросе о факторах, создающих погрешность измерения, недостаточно проанализированы и пути повышения надежности тестовых методик. Все это делает проблему надежности одной из наиболее актуальных в современной тестологии.
Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методик решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика без знания ее валидности является практически бесполезной.
Валидность зависит от точности, так как неточный метод не может быть валидным. Однако и наиболее точный метод без знания его валидности не имеет практически никакой цены. В исследовательской работе он может иметь определенное место, если выявляет явные индивидуальные различия, но для практических целей необходимо знать, какое психологическое значение имеют эти различия. Каждый точный метод имеет определенную валидность, иначе говоря, его результаты выражают определенную психическую характеристику, его результаты создают образ исследуемого явления. Большинство методов является валидными по отношению к нескольким психическим характеристикам.
В переводе термин «валидность» означает обоснованность, достоверность. С методологической точки зрения валидность является основной гносеологической проблемой психодиагностики. Она основана на предложении о существовании психических характеристик, которые внешне проявляются определенными индикаторами. Речь идет об особом случае отношения между «сущностью и явлением». Мы исходим из вероятностного понимания этого отношения. Отношение между психической характеристикой и ее индикаторами является более однозначным в том смысле, что определенный индикатор у разных испытуемых может свидетельствовать о разных психических характеристиках, но множество возможностей является конечным и познаваемым.
Наиболее укоренившимся определением понятия валидность является то, которое приведено в книге А. Анастази: "Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает". Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Вопрос о валидности тестовых методик был фактически поставлен известным русским психологом Г. И. Челпановым (подробно анализировавшим еще на заре тестологии методики Бине-Симона), А. П. Нечаева, Г. И. Россолимо. Так, характеризуя тест Бине-Симона, Г. И. Челпанов справедливо указывал: «При помощи этого метода можно только определить, соответствует ли умственное развитие данного ребенка его возрасту или нет. Определить его одаренность нет никакой возможности».
Весьма интенсивно и плодотворно проблема валидизации психологических тестов разрабатывалась в период становления советской психологии.
Впервые в советской литературе на источник данной проблемы указал М. Г. Геллерштейн. В той мере, писал он, в какой тест оценивает поведение человека, он, безусловно, является методом объективным. «В него вкрадывается элемент субъективности лишь постольку, поскольку многообразные формы человеческого поведения, регистрируемые нами в тестовых испытаниях, истолковываются под углом зрения тех психических процессов, которые за ними скрываются... Субъективность будет тем большей, чем меньше нам понятна связь, существующая между определенными психическими процессами и их реализацией, т. е. их выявлением в форме того или другого акта или реакции».
К сожалению, справедливая критика мнимого, невалидного измерения врожденной умственной одаренности, развернувшаяся с лета 1937 г., имела своим побочным результатом прекращение на длительный период всякой конструктивной работы в этой области. Однако с начала 60-х гг. в ряде публикаций ведущих советских психологов вновь была подчеркнута актуальность вопросов, связанных с валидизацией психологических тестов.
«Возможна ли в психологии разработка таких тестовых проб, которые служили бы совершенно однозначным и достоверным признаком реальных психологических особенностей?» - задаются вопросом И. И. Иванова и В. Г. Асеев. Ответ их звучит весьма осторожно: «возможности разработки таких однозначных тестовых проб ограничены».
В настоящее время психология уже имеет в своем активе ряд теоретических разработок, представляющих интерес для данной проблемы. Однако специальных, систематических исследований, органически сочетающих теоретический анализ и эксперимент, в этой области еще не проводилось.
Создание эффективных методов валидизации психологических тестов требует прежде всего научно обоснованной, четко оформленной классификации существующих типов и видов валидности. На Западе, где проблема валидности была осознана более или менее глубоко лишь в 50-х гг. (в связи с наметившимся к тому времени глобальным кризисом тестологии), описанию различных видов валидности посвящены тем не менее десятки пространных публикаций. Однако высказываемые мнения касаются по преимуществу лишь отдельных, разрозненных аспектов проблемы. Выделенные по различным признакам типы и виды валидности должным образом не специфицированы и не соотнесены друг с другом. Какой-либо единой классификационной системы пока нет, и ее создание даже не ставится в повестку дня. Всвязи с этим и в практической сфере, т. е.в деле валидизации конкретных психологических тестов, существенного прогресса пока не достигнуто — почти все тесты, используемые в настоящее время в научных или практических целях, валидизированы лишь на уровне определения их ценности для конкретных практических целей или путем определения степени их корреляции с другими тестами.
С формальной точки зрения валидность бывает подлинная, которая выражает отношение между результатами метода итем, что с помощью метода изучалось, и ложная, в которой зафиксирована видимость ценности метода. Подлинная валидность в зависимости от характера критерия, с помощью которого она проверяется, разделяется на эмпирическую и теоретическую, текущую и прогностическую.
Ложная валидность имеет также четыре варианта (Р. Кэттелл): очевидную валидностъ, валидность, основанную на опыте, на убеждении и на желании.
1. Очевидная валидность исходит из того, что данный метод на первый взгляд якобы исследует. Если, например, содержание вопросов направлено на неуверенность в себе, то исследуется неуверенность, а если на знания по истории — то исследуется духовная культура в области истории и т. д. Очевидная валидность соответствует подлинной валидности по содержанию только в случае так называемых дидактических тестов или тестов знаний, их содержательный анализ является столь явным, что нет необходимости изучать его. При всех остальных методах, включая опросники, мы обязательно должны исследовать валидность, хотя и во многих случаях кажется понятным, о чем идет речь.
2. Валидность, исходящая из опыта, основывается на уверенности в том, что метод позволяет «понять испытуемого»; использование метода доставляет личное удовлетворение.
3. Валидность, опирающаяся на убеждение, исходит из необоснованного убеждения, что данный метод является хорошим, потому что, в частности, хорошей является теория, на которой он построен. Часто такое убеждение усиливается по мере овладения методом, без исследования его реальной валидности.
4. Валидностъ, основанная на желании, предполагает участие предубеждений исследователя относительно возможностей метода.
Валидность всех психодиагностических методов, кроме дидактических, требует проверки психометрическими методами. Психометрика разработала много так называемых процессов валидизации, среди которых наиболее часто используются различные коэффициенты корреляции для подсчета отношения между результатами метода и значением критерия. Тип коэффициента зависит от типа математической шкалы, на которой представлены результаты и значения критерия.
Коэффициент валидности может быть выражен и с помощью £-теста, коэффициента энтропии, теста с2 или с помощью прогностических таблиц и иных мер отношений.
Теоретическая валидность определяется на основе логического доказательства и эмпирического подтверждения последствий, вытекающих из теории, взятой за основу метода, и ее результатов. Преимуществом теоретической валидизации является применение факторного или дискриминационного анализа, но в матрицу анализируемых переменных должны входить и методы с известной валидностью, чтобы с их помощью можно было адекватно интерпретировать факторы или синдромы. Большинство специалистов характеризует валидность как вероятность соответствия между результатами теста и тем, что мы с помощью теста хотим узнать. Значит, валидность говорит о том, в какой степени (или как) результаты проверенного уже теста соответствуют измеряемой или оцениваемой характеристике личности, насколько тест адекватен по отношению к изучаемой проблеме и в какой степени полученные результаты являются образом исследуемого знака. Это значит, что валидность - это данные об информативной ценности теста как средства познания человека.
Валидность, таким образом, выражает, в какой степени мы с помощью данного метода исследуем то, что хотим исследовать, и отвечает на вопрос: «Измеряем ли мы то, что думаем измерять?»
С этой точки зрения можно вообще говорить о следующих типах валидности.
1. По содержанию — выражает соответствие между тестом и исследуемой характеристикой. Включение таких заданий исходит из знаний автора, отзывов специалистов и т. д. о предполагаемых явлениях. Например, включение в опросник вопросов, о которых предполагаем, что они направлены на проявление интровертированного поведения. Здесь пригодность методики определяется на основании репрезентативного сходства между содержанием вопросов (заданий) и компонентами научаемой характеристики личности; способ ее определения — логико-семантический.
2. Текущая валидностъ — выражает соответствие между результатами и параллельно примененным критерием. Часто используется метод известных групп и сравниваются результаты обоих групп. Важна точная идентификация известных групп.
3. Прогностическая валидностъ — выражает соответствие между результатами теста и критерием спустя определенное время. Например, при исследовании доминантности мы следим за поведением и сопоставляем его с результатами тестирования. Подходящим критерием является, например, успеваемость в школе, показатели результативности труда и т. д.
4. Конструктная валидностъ — выражает соответствие между тестом и изучаемым знаком. В этих целях часто результаты тестирования сравниваются с надежными тестами, намеряющими данный знак личности.
На основании результатов тестирования мы предсказываем степень выраженности изучаемой характеристики, поэтому тест можно назвать и «предиктором», и считать его независимой переменной в исследовании.
Однако в психологии мы почти никогда не узнаем степень выраженности и характер исследуемой характеристики, так как судим о ней посредством эмпирически очевидных показателей, о которых мы на основе теоретических либо практических знаний знаем, что они являются релевантными отображениями знака. Эти показатели — если служат для проверки валидности теста — обозначаются термином «критерий». (Естественно, и тест является показателем изучаемой характеристики, однако его индикаторная функция до проверки еще неизвестна и неявна.)
В большинстве процедур по валидизации имеет место внешний критерий. Обычно им является знакомый и очевидный индикатор психической характеристики, для определения которой мы и создаем метод.
Критерием чаще всего бывают проявления изучаемой характеристики в повседневной жизни. Однако это должны быть такие данные, которые сами по себе не могут заместить метод, иначе было бы бессмысленным финансировать создание метода. Достаточно было бы в качестве метода использовать сам критерий.
Нахождение подходящего и легко доступного критерия принадлежит к важнейшим и сложнейшим задачам валидизации. Многие хорошие методы были изъяты лишь потому, что не удалось найти адекватный критерий для их проверки. Сомнительные данные по валидизации можно найти при анализе некоторых опросников, и не потому, что последние являются невалидными, а потому, что трудно найти подходящий критерий, соответствующий тому, что этот опросник выявляет. Опросники выявляют поле проявления изучаемой характеристики, в то время как шкалы оценок, с помощью которых чаще всего осуществляется валидизация опросников, выявляют интенсивность изучаемой характеристики. Но тогда коэффициент валидности оказывается ниже, чем он есть на самом деле.
Также дело обстоит с валидизацией теста Роршаха — она бывает менее благоприятной, чем само качество метода. Оказывается, что интроверсия и экстраверсия, определенная с помощью теста Роршаха. отличается от интроверсии и экстраверсии, выявленной с помощью опросников и других часто используемых методов, исходящих из иных теоретических предпосылок.
Позитивисты-эмпирики сказали бы, что критерием является зависимая переменная, с помощью которой приблизительно оцениваем, предсказываем на основании результатов теста (диагностических показателей), или переменная, которая служит мерой валидности теста.
В отличие от этого несколько крайнего утверждения мы исходим из предположения, что по диагностическим данным (ДД) мы судим об изучаемой характеристике личности (ХЛ) посредством психометрически или теоретически обоснованного отношения между результатами теста и величиной критерия (К): ДД - К - ХД.
Таким образом, можно сказать, что критерий - это очевидный показатель тех характеристик личности, которые тест должен измерять, а именно показатель, определяемый независимо от предъявления теста. Было бы ненаучным, если бы критерий исследовался и выражался — сознательно или неосознанно - в зависимости от знания тестовых результатов отдельных испытуемых.
Отношение «тест - критерий - характеристика личности» обычно представляет сложную структуру. Выбранный критерий может релевантно выражать лишь определенный компонент этой структуры, причем другой критерий выражает уже следующий аспект. На этой основе — кроме иных факторов — может возникнуть разногласие между различными авторами при определении валидности (слепая валидизация).
Критерий должен быть очевидным, объективно надежно и легко определимым и по возможности репрезентативным показателем изучаемой характеристики. Критерием может служить и ранее проверенный практический тест или общепринятая хорошая теория.
Критерием может служить и возраст — при условии, что с возрастом регулярно повышаются или снижаются показатели изучаемого явления: иными общеопределенными критериями являются: пол, диагноз врача, отметка в школе, далее, например, разделение испытуемых на «имеющих» и «не имеющих» определенную характеристику, распределение испытуемых по степени выраженности (от максимума до минимума) изучаемой характеристики, применение техники «угадай, кто» и т. п.
Критерии можем разделить в зависимости от того, касаются ли они преимущественно достижений деятельности или постоянных характеристик и объективных обстоятельств.
Группу деятелъностных критериев представляет, например, «Производительность», выраженная в количестве продуктов, далее качество результата труда, заработок, время, необходимое на овладение деятельностью, и т. д.
К постоянным и объективно данным критериям можно отнести: возраст, пол, количество пропусков на работе, время пребывания на одной работе (на предприятии), текучесть кадров, несчастные случаи, повторение курса обучения, излечение и т. п.
Результаты критерия редко бывают представлены в шкальных единицах (т. е. в интервалах или в равных единицах измерения в системе измерения). Чаще всего в единицах квантиля: это порядковые степени (rating
), порядковое место (rankling
), или только качественные (номинальные категории/типы).
Во многих случаях поэтому целесообразно дихотомизировать значение критерия или разделить его на соответствующее количество степеней. Однако дихотонизацию нельзя механически проводить по медиане. Ведь мы не знаем, каким на самом деле является распределение значений критерия в исследуемой выборке. Скажем, мы хотели бы с помощью какого-нибудь теста определять индивидов с безошибочным и точным наблюдением. Если мы в качестве критерия возьмем количество пропущенных ошибок в тексте, тогда у половины испытуемых окажется в тесте 0-4 ошибки, а у второй половины 5 и больше ошибок. Но нам нужна группа, которая работает безошибочно (а это только 20 % испытуемых). Высоко вероятно, что психические явления не бывают, как правило, распределены по кривой нормального распределения Гаусса. Значит, целесообразно, например, в категорию «имеет характеристику» включить 80 % испытуемых со значением критерия от максимума по уровень, соответствующий 21 %, а в категорию «не имеет характеристику» включить оставшихся 20 % лиц и т. п.
Валидность выражаетпрактическую полезность теста, его диагностическую и прогностическую силу и возможность его использования в определенных целях.
Естественно, в процессе систематического изучения отношений между результатами тестирования и различными критериями мы убеждаемся, что адекватность теста зависит от исследовательских целей. Тест имеет столько валидностей, сколько имеется критериев. Определенный тест интеллекта является, например, отличным инструментом для определения вербальной находчивости, но он мало годится для определения способности мысленного сопоставления.
Почти каждый тест предоставляет нам несколько различных диагностических показателей (например, диагностическими показателями в тесте зеркального рисования являются: время, нажим, количество срывов, скорость обучения и т. п.). Поэтому требуется определить валидность диагностических показателей по отдельности, или определить общую валидность всего теста в целом.
Валидизация теста — это поиск ответа на вопрос, измеряет ли данная методика то, что, по замыслам автора, она должна измерять, и насколько точно она это делает.
Вообще это изучение всего того, что данная методика выявляет. Это процесс изучения адекватности, релевантности, точности, практической полезности, диагностической и прогностической силы и адекватности теста для поставленных целей.
Количественное или качественное выражение адекватности измерения посредством теста, т. е. определения исследуемой характеристики личности, называется индексом валидности.
Когда мы имеем в виду пригодность теста для определенной цели, мы говорим о его адекватности; когда мы хотим сказать, что результаты теста являются точным и метким изображением меры или своеобразия исследуемой характеристики, мы тем самым определяем их действительность. Однако на практике до сих пор не различаются адекватность теста как средства и действительность его результатов: одно и другое коротко называем валидностью.
Когда мы проверяем действительность теста, чаще всего нас интересует, существует ли вообще предполагаемое отношение или по крайней мере какое-нибудь отношение теста к любому критерию (речь идет о какой-то «разведочной» валидности), и насколько это отношение является тесным.
Хотя мы и говорим об отношении, это не значит, что валидность должны изучать лишь с помощью корреляций. Отношение мы можем определять также с помощью уравнения регрессии, t-критерия различий между результатами тестирования в группе наилучших по критерию и средним числом результатов тестирования оставшихся испытуемых. Существует ряд других методов, включая непараметрические тесты.
Оценка валидности методики может носить количественный и качественный характер.
Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200 Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20— 0,30, средним — 0,30—0,50 и высоким — свыше 0,60.
Но, как подчеркивают А. Анастази, К.М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К.М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью — это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
Существует несколько видов валидности,обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия. Во многих работах (А. Анастази, Л.Ф Бурлачук, С.М. Морозов, К.М. Гуревич, Б.В Кулагин, и др.) называются чаще всего следующие:
1. Валидность "по содержанию". Этот прием используется в основном в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность "по содержанию" также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью.
2. Валидность "по одновременности", или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени успеваемость в период испытания, производительность в этот же период и т. д. С ним коррелируют результаты успешности по тесту.
3. "Предсказывающая" валидность (другое название - "прогностическая" валидность). Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.
4. "Ретроспективная" валидность. Она определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями.
При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой — низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.
Почему исследования по валидизации заканчиваются неудачей?
Одной из причин может быть то, что предиктором является опросник, а критерием — шкала оценок. То есть сопоставляются методы изучения двух разных уровней личности.
Если мы с помощью соответствующей модели валидизации получим неубедительный результат (слишком низкий индекс валидности), это еще не должно значить, что тест невалиден. Причин этому может быть много. Например, тест валиден в совсем иной области, чем та, которую мы изучаем. Мы также могли допустить ошибку в подсчетах. Доводом может быть и то, что мы применяли линейные корреляции, в то время как отношение между тестом и критерием является нелинейным. Поэтому всегда полезно отношение между тестом и критерием изобразить графически (на точечной диаграмме).
В последнее время указывается и на другой важный довод, который может способствовать в будущем пересмотру всех до сих пор существующих работ по валидизации. Речь идет о действии так называемых переменных-модераторов. При прогностической валидизации теста способностей по отношению к успеху в будущем было обнаружено, что наивысшую валидность имели тесты у стабильных экстравертов, в то время как у лабильных экстравертов корреляция была около нуля. К переменным-модераторам вероятно принадлежит и теоретически предполагаемая переменная, называемая предсказуемостью. Большее количество испытуемых с низкой предсказуемостью в группе, на которой осуществляется валидизация, может значительно занизить индекс валидности. Предсказуемость вероятно представляет комплекс характеристик, которые обесценивают результат тестирования или искажают критерий у разных испытуемых в разной степени. Валидность могут снижать и так называемые супрессоры, т. е. переменные, минимально коррелирующие с критерием, но зато имеющие общую дисперсию с невалидной частью проверяемого теста.
2. Психодиагностика индивидуального сознания и самосознания: понятие, методические приёмы, методики.
Самосознание, как важный структурный компонент личности, является тем внутренним механизмом, благодаря которому человек способен не только сознательно воспринимать воздействие окружающей среды, но и самостоятельно, осознавая свои возможности, определять меру и характер собственной активности. В результате человек не только может отражать внешний мир, но, выделив себя в нем, познавать и свой внутренний мир, переживать его и определенным образом относиться к себе. Самосознание с одной стороны «… как бы фиксирует итог психического развития личности на определенных этапах ее существования, …а с другой стороны, в качестве внутреннего осознанного регулятора поведения самосознание влияет на дальнейшее развитие личности. Оно одно из существенных условий непрерывности развития личности, устанавливающее равновесие между внешними влияниями, внутренним состоянием личности и формами ее поведения».
В настоящее время существует целый ряд определений самосознания. Например, в психологическом словаре мы встречаем такое определение: «Самосознание – осознанное отношение человека к своим потребностям и способностям, влечениям и мотивам поведения, переживаниям и мыслям».
В понимании И.И. Чесноковой самосознание представляет собой «совокупность психических процессов, посредством которых индивид осознает себя в качестве субъекта деятельности, а его представления о самом себе складываются в определенный «образ Я».
По мнению В.Г. Маралова «Самосознание - это деятельность Я как субъекта по познанию (или созданию) образа Я (Я концепции), в свою очередь образ Я, включаясь в структуру Я, как субъекта, выполняет саморегулирующую функцию».
В определениях самосознания выделяются, как правило, два момента: во-первых, подчеркивается, что самосознание является свойством личности как социального существа, во-вторых, указывается, что объектом самосознания является сам познающий субъект - человек, осознающий различные стороны своей психической деятельности и проявления собственной активности.
Самосознание – это высший уровень развития сознания человека, основа формирования его умственной активности и самостоятельности личности в ее суждениях, отношениях, действиях и поступках. Самосознание - это осознание личностью своих возможностей в конкретных условиях жизни и деятельности.
Как человек приходит к тому или иному представлению о себе, какие внутренние действия при этом совершает, как формируется Я-образ, Я-концепция - все эти вопросы сейчас интенсивно разрабатываются в научных исследованиях.
Самосознание имеет уровневое строение. Подробная уровневая концепция самосознания и личности в целом предложена Э. Эриксоном. Концепция уровневого строения самосознания, основанная на учете активности человека, в рамках которой формируется и действует его самосознание, была сформулирована В. В. Столиным.
Суть концепции уровневого строения самосознания заключается в следующем. На уровне организма активность субъекта определена системой "организм—среда", имеет двигательный характер и вызывается потребностями в самосохранении, нормальном функционировании, физическом благополучии организма. На уровне организма формируется самочувствие субъекта как итог процессов, отражающих состояние внутренних органов, мышц, активации организма в целом. Это самочувствие есть биологический аналог самоотношения, отражающий степень удовлетворенности потребностей организма в благополучии, целостности, функциональном состоянии.
На уровне социального индивида активность подчинена иной потребности — потребности в принадлежности человека к общности, в признании его этой общностью. Эта активность регулируется социальными нормами, правилами, обычаями, уставами, предписаниями, которые усваиваются индивидом. Жизненная важность для субъекта быть принятым другими людьми отражается в самоотношении, которое есть перенесение внутрь отношения других, принятие другими или отвержение ими.
На уровне личности активность субъекта вызывается прежде всего потребностью в самореализации — в труде, любви, спорте и т.д. — и реализуется с помощью ориентации на свои собственные способности, возможности, мотивы. Основой самоотношения здесь становится потребность в самоактуализации; собственное Я, собственные черты и качества оцениваются в отношении к мотивам, выражающим потребность в самореализации и рассматриваются как ее условие.
Важной интегральной характеристикой в структуре самосознания является Я-концепция. Р. Берне рассматривает Я-концепцию как совокупность установок, направленных на самого себя. В этих установках выделяются три компонента:
1) образ Я— представление индивида о самом себе;
2) самооценка — аффективная оценка этого представления, которая может обладать различной интенсивностью, поскольку конкретные черты образа Я могут вызвать более или менее сильные эмоции, связанные с их принятием или осуждением;
3) потенциальная поведенческая реакция, т.е. конкретные действия, которые могут быть вызваны Я-образом и самооценкой.
Предметом самовосприятия и самооценки индивида могут стать его тело, его способности, его социальные отношения и множество других личностных проявлений. Я-концепция формируется под воздействием различных внешних влияний, которые испытывает человек. Особенно важными являются для него контакты со значимыми другими, которые, в сущности, и определяют представление человека о самом себе.
А. Анастази выделяет наиболее употребительные четыре диагностические методики для диагностики самосознания:
- контрольный список прилагательных Г. Гоха;
- Q-классификация В. Стефенсона;
- семантический дифференциал Ч. Осгуда;
- тест ролевых конструктов Г. Келли.
Перечень методик, приведенный в руководстве Р. Уайли, гораздо шире и включает около двух десятков методик и диагностических техник. В несколько раз больше конкретных методик, в том числе и используемых исключительно в исследовательских целях, приводится в книге Р. Бурнса.
В области психодиагностики самосознания используются основные традиционные и вновь разрабатываемые классы методик:
1. стандартизированные самоотчеты в форме описаний и самоописаний.
2. идеографические методики типа репертуарных решеток,
3. проективные техники и др.
К стандартизированным самотчётам относятся прежде всего тесты-опросники, состоящие из более или менее развернутых утверждений, касающихся отношения испытуемого к самому себе в различных жизненных сферах; чувств, мыслей относительно тех или иных событий или обстоятельств в жизни субъекта; поведенческих проявлений; взаимоотношений с другими людьми. Способ ответа широко варьируется в различных опросниках: используются двух-, трех-, четырех-, пяти- и семиальтернативный выбор, вербальное или невербальное согласие.
Шкала Я-концепция Теннесси — опросник, предназначенный для подростков (с 12 лет) и взрослых. С его помощью можно выявить глобальное самоотношение (самоудовлетворенность): специфические формы самоотношения к своему телу, к себе как моральному субъекту, к себе как к члену семьи и т.д. Опросник также позволяет дать дифференцированное заключение о самоотношении, в отличие от содержательного аспекта Я-концепции.
Шкала детской Я-концепции Пирса-Харриса — популярный в США опросник, составленный из 80 простых утверждений относительно своего Я или тех или иных ситуаций и обстоятельств, связанных с самоотношением. Предназначен для детей в возрасте от 8 до 16 лет.
Несмотря на методологическую критику подобных опросников, они остаются основным инструментом в исследованиях Я-концепции, постоянно создаются новые опросники для специфических целей и популяций. Шкальная техника, примером которой является семантический дифференциал, также применяется при анализе Я-концепции и прежде всего самоотношения.
Существует отечественная литература, посвященная теории и методу Ч. Осгуд. Разработан отечественный вариант семантического дифференциала применительно к задачам психодиагностики в психиатрической клинике (Е.Ф. Бажин, Е.А. Голынкина, A.M. Эткинд).
Поскольку Я-концепция так или иначе проявляется в любом развернутом самоописании (в дневниковых записях, в ответах на вопросы анкеты, в интервью, в письмах и т.д.), появляется возможность применить к некоторой совокупности текстов процедуру контент-анализа.
Тест 12 утверждений на самоотношение является примером такой методики. Это техника, основанная на использовании нестандартизированного самоописания с последующим контент-анализом. Анализ данных исследований позволил выделить ряд категорий, которые впоследствии использовались в контент-анализе: социальные группы (пол, возраст, национальность, профессия, религия), идеологические убеждения (философские, религиозные, политические и моральные высказывания), интересы и увлечения, стремления и цели, самооценки.
Общая тенденция состоит в том, что "присоединяющие" утверждения, в которых фиксируется принадлежность испытуемого к той или иной категории людей, выносятся раньше, чем "дифференцирующие". Наиболее частые категории, обнаруженные на больших выборках в зарубежных исследованиях, — профессиональная идентичность, семейная роль и статус, супружеская роль и статус, религиозная идентичность, пол и возраст.
Оценивая стандартизированные самоотчеты с применением контент-анализа в целом, следует отметить, что основное их достоинство по сравнению со стандартизированными отчетами состоит в потенциальном богатстве оттенков самоописания и возможности анализировать самоотношение, выраженное языком самого субъекта, а не навязанное ему языком исследования. С другой стороны, всякий контент-анализ ограничивает возможность учета индивидуального своеобразия испытуемого путем наложения готовой системы категорий, приближая тем самым результаты, полученные этим методом, к тем, которые получаются с помощью стандартизированных самоотчетов.
Опросник самоотношения (В.В. Столин) представляет собой многомерный психодиагностический инструмент, основанный на принципе стандартизированного самоотчета. В результате факторизации массива данных и экспертной интерпретации словесных портретов, составленных на основании полученных результатов, в качестве шкал были отобраны семь факторов: 1) самоуверенность; 2) ожидаемое отношение (позитивное или негативное); 3) самопринятие; 4) саморуководство, внутренняя последовательность; 5) самообвинение; 6) самоинтерес; 7) самопонимание.
Выделенные факторы были интерпретированы как наиболее конкретный уровень самоотношения - уровень внутренних действий в свой адрес или готовность к таким действиям. Кроме того, данная версия опросника позволяет выявить три уровня самоотношения, различающиеся по степени обобщенности:
1) глобальное самоотношение;
2) самоотношение, дифференцированное по самоуважению, аутосимпатии самоинтересу и ожиданиям отношения к себе;
3) уровень конкретных действий (готовность к ним) в отношении к своему Я.
Одной из важных интегральных характеристик самосознания, связывающих чувство ответственности, готовность к активности и переживание Я, является качество личности, получившее название локуса контроля. Появление этого понятия в психологической литературе в первую очередь связано с работами американского психолога Дж. Роттера. Роттер предложил различать людей в соответствии с тем, где они локализуют контроль за значимыми для себя событиями. Существует два крайних типа такой локализации, или локуса контроля: интернальный и экстернальный. В первом случае человек считает, что происходящие с ним события прежде всего зависят от его личностных качеств, таких, как компетентность, целеустремленность, уровень способностей, и являются закономерным результатом его собственной деятельности. Во втором случае человек убежден, что его успехи или неудачи являются результатом таких внешних сил, как везение, случайность, давление окружающих, другие люди и т.д. Любой индивид занимает определенную позицию на прямой (на континууме), задаваемой этими полярными типами локуса контроля.
В отечественной психологической практике чаще всего используются три варианта методик локуса контроля: оригинальная "шкала 1-Е" Роттера в переводе на русский язык; методика исследования уровня субъективного контроля, созданная Е.Ф. Бажиным, Е.А. Голынкиной и A.M. Эткиндом; опросник субъективной локализации контроля, разработанный С.Р. Пантелеевым и В.В. Столиным. Опросник субъективной локализации контроля создан на основе шкалы Роттера с сохранением ее первичных качеств (одномерности, небольшого количества пунктов, формата шкалы, требующего в каждом пункте выбора одного из двух альтернативных суждений). В целях повышения достоверности результатов и нейтрализации позиционных эффектов опросник сбалансирован по следующим параметрам:
1) по интернальности-экстернальности, что обеспечивается форматом шкалы;
2) по направлению атрибуций"; примерно равное количество пунктов сформулировано в первом и третьем лице; наделение, приписывание различных качеств, свойств и характеристик одного человека другому как метод, прием или область исследования, касающаяся причинно-следственной интерпретации людьми поведения друг друга;
3) по эмоциональному признаку: равное количество пунктов описывают эмоционально-позитивные и эмоционально-негативные ситуации.
Утверждения опросников в основном ориентированы на учебную сферу, сферы достижения и межличностных отношении.
Данная шкала в достаточной мере удовлетворяет основным психометрическим требованиям, что подтверждается достигнутыми показателями надежности и валидности, а результаты применения данного опросника на различных выборках испытуемых свидетельствует о том, что его можно с успехом применять в психодиагностической практике.
«Техника репертуарных решеток» или «репертуарные личностные тесты» позволяют выявлять и описывать качественные особенности индивидуального сознания, реконструировать систему смысловых параметров, лежащих в основе восприятия данным конкретным человеком себя и других людей, объектов и отношений.
Уровню индивидуального сознания в психодиагностике до недавнего времени уделялось незаслуженно мало внимания.
«Техника репертуарных решеток» предоставляет возможность «работать» на уровне индивидуального сознания, т. е. на том уровне, на котором разворачиваются основные события психической жизни человека. Репертуарные тесты не требуют обращения к групповым нормам и большим выборкам, позволяют применить весь арсенал многомерных статистических методов для анализа индивидуального сознания, охватывают не только статику, но и динамику смысловых образований личности.
При знакомстве с «Техникой репертуарных решеток» удивляет разнообразие методик: это могут быть варианты структурированного интервью, методики типа «бумага - карандаш», стандартные компьютерные интерактивные программы, методики сортировки и еще ряд других. Что же объединяет их и отличает от других техник субъективного шкалирования, стандартизированного самоотчета, интервью, таких, как семантический дифференциал, аджективные контрольные списки или различные варианты клинической беседы?
Первое отличие от других стандартизированных психометрических методик заключается в том, что в «Технике репертуарных решеток» используются не заданные извне, а собственные, «вызванные» у самого испытуемого, конструкты. При составлении репертуарной решетки необходимо учитывать следующие три принципа: принцип биополярности конструкта, принцип индивидуальности, принцип диапазона применимости конструкта. Техник вызывания конструктов существует множество.
Способ вызывания конструктов методом триад. Один из самых распространенных методов предложен Дж. Келли под названием «метод минимального контекста». Из репертуара выбираются тройки элементов (триады). Для каждой триады испытуемый должен выбрать два элемента, самых сходных в чем-то между собой и отличающихся, по этому параметру, от третьего. Обязательное требование заключается в том, чтобы оба полюса конструкта были определены (принцип биполярности). Если элементов не очень много, то можно брать все возможные триады из набора.
Метод самоперсонификации. Этот метод — вариант метода триад. Отличие состоит в том, что в каждую триаду в качестве одного из элементов входит элемент «Я сам». Этот метод позволяет выявлять наиболее личностно-релевантные конструкты.
Метод полного контекста. Испытуемый работает сразу со всем набором элементов и классифицирует их различными способами. Таким методом можно «вызывать» невербализованные и невербализуемые конструкты, например, попросить испытуемого разложить карточки на две группы по сходству между собой. После того как переписаны номера карточек в каждой группе, испытуемого просят разложить их по какому-либо другому признаку. Если испытуемый не может точно определить принципы для той или иной классификации, можно попросить его определить их метафорически, образно. Этот способ позволяет сразу же в процессе «вызывания» конструктов «заполнять» репертуарную матрицу.
Т. Кин и Р. Белл предложили оригинальный метод вызывания одновременно конструктов и элементов. Этот метод может быть рекомендован при первом знакомстве с испытуемым, когда психолог еще ничего не знает о нем и не может сразу определить необходимый репертуар элементов. Испытуемому предлагают первый элемент (мы в таких случаях часто используем ролевую инструкцию «Я сам») и просят назвать кого-то (или что-то, если в качестве элементов используются предметы), отличающегося от первого элемента каким-либо значимым образом. После того как определены оба полюса конструкта, испытуемому предлагается назвать третий элемент, относящийся к данному конструкту. Этот третий элемент становится первым для следующего конструкта, и процедура повторяется дальше, пока не будет исчерпана область или не начнутся повторения конструктов и элементов.
Процедуры «Лестница» и «Пирамида». Эти процедуры позволяют вызывать суперординатные (более базовые, широкие) и субординатные (подчиненные) конструкты. Процедуры могут быть применены самостоятельно или к вызванным на предыдущем этапе конструктам.
Психолог выбирает один из первоначально вызванных конструктов и предлагает испытуемому рассмотреть его более внимательно. Например, был вызван конструкт «застенчивый - общительный». Испытуемому предлагается выбрать более предпочитаемый полюс.
Процедура «Лестница» позволяет подниматься с конструкта более низкого уровня к наиболее общим для данного человека.
Процедура «Пирамида» позволяет вызывать конструкты более низкого уровня, более детальные, субординатные. Обе процедуры можно совмещать.
Многие процедуры похожи на структурированное интервью, помогают организовать беседу, поддержать контакт с испытуемым. При наличии определенного опыта исследователь может использовать для вызывания конструктов обычную беседу, уточняя выбранные конструкты вместе с испытуемым в заключительной части встречи.
«Техника репертуарных решеток» ориентирована на работу с компьютером. Существуют и ручные методы, но они, даже в простых случаях, достаточно трудоемки. Исследователь, предполагающий работать с решетками без компьютера, будет разочарован: большие временные затраты на вычисления не оставят времени на обдумывание и обсуждение. Репертуарные решетки хороши тогда, когда есть возможность быстро проводить анализ, выдвигать гипотезы и проверять их, обсуждая с испытуемым результаты предыдущей работы. Сейчас лаборатории повсеместно оснащены персональными компьютерами.
Ранговая решетка — самая популярная и самая простая из процедур. Выбранные элементы выписываются на карточки, после чего испытуемого просят проранжировать элементы по каждому конструкту от одного полюса до другого. В матрице на пересечении строк (конструктов) и столбцов (элементов) стоят ранги каждого элемента по каждому конструкту. Ранговая процедура может быть усовершенствована. П. Боксер предложил соединить ранжирование с графической шкалой. Испытуемому предлагают градуированную графическую шкалу (градаций намного больше, чем элементов) и просят на ней проранжировать (проставить карандашом номера) элементы. Эта процедура, по нашему опыту, является наиболее удобной для репертуарных решеток, совмещая преимущества ранговых процедур (простота и понятность процедуры для испытуемого) и оценочных (возможность получать шкалы более высоких уровней).
Оценочная решетка. В этой процедуре испытуемый должен оценить отдельно каждый элемент по каждому конструкту. Дробность оценочной шкалы может быть разной, однако более семи градаций шкал применять не рекомендуется, так как у испытуемого происходит укрупнение единиц и качество оценки снижается.
Интересный вариант оценочной решетки - решетка типа «галочек и пробелов».
Для анализа ранговых и оценочных решеток можно применять различные виды многомерного анализа данных. Наиболее распространенными являются различные варианты кластер-анализа (иерархические и неиерархические) и факторного анализа (параметрические и непараметрические).
Важно подчеркнуть, что мнение, будто решетки не дают новой информации по сравнению с той, которую можно почерпнуть из обычного разговора, - ошибочно. Получаемые структуры не всегда осознаются человеком и не всегда очевидны для него. Более того, даже простое заполнение решетки и изучение первичных оценок не позволяют увидеть многое, что становится ясным после построения многомерной модели системы конструктов и элементов.
В этом заключается второе важное отличие «Техники репертуарных решеток» от самооценочных шкал и других стандартизированных психометрических инструментов. В «Технике репертуарных решеток» реализован субъектный подход, при котором предполагается реконструкция системы смысловых параметров оценок данного конкретного человека, а не оценка его с позиций групповых шкал.
Ранговые и оценочные решетки предоставляют новые возможности для изучения восприятия и понимания людьми друг друга.
Интересный вариант ранговой решетки предложили советские исследователи (Соколова Е. Т., Федотова Е. О.). В их решетке в качестве элементов используется проективный материал (схематические слабоструктурированные изображения человеческих лиц).
Импликативная решетка. Предложена Хинклом. Вызванные на предыдущем этапе конструкты организуются в квадратную матрицу (без элементов).
Решетка сопротивления изменениям. Это еще один тип решетки на выявление иерархических отношений между конструктами. Каждый из конструктов выписывают на отдельные карточки. Затем карточки попарно предъявляют испытуемому. Его просят указать предпочитаемый полюс по каждому конструкту. После чего испытуемому дается примерно такая инструкция: «Представьте себе, что Вам обязательно придется измениться (перейти на непредпочитаемый полюс) по одному из этих конструктов. Какой из них Вы бы выбрали?». Испытуемый отвечает, и результат заносится в такую же матрицу, как и при импликативной решетке (за тем исключением, что в решетке сопротивления изменениям каждый конструкт встречается с каждым один раз и в матрице не будет «крестов»). Обработка решеток сопротивления изменениям полностью аналогична импликативной процедуре.
Много ценной информации может дать сравнение импликативных иерархограмм с иерархограммами, полученными в результате решетки сопротивления изменениям. Часто уровень конструкта в обоих решетках совпадает. Однако встречаются и сильные рассогласования. Так, например, конструкты могут быть самыми слабыми в импликативной решетке и самыми сильными в решетке сопротивления изменениям. Анализ таких рассогласований позволяет выявить наиболее личностно значимые конструкты.
Динамика решеток. Дж. Келли говорил, что человек - это форма движения. Действительно, решетки меняются, меняются конструкты, меняются связи и отношения между ними. Оценить эти изменения, позволяет опять-таки техника репертуарных матриц.
Техника репертуарных матриц хороша не в массовых обследованиях, а при индивидуальной и групповой работе, когда есть живой контакт с человеком, заполняющим решетку. Техника репертуарных матриц - хорошее средство для исследования испытуемым собственной системы конструктов.
3.Выбрать личностный опросник, дать ему характеристику, провести психодиагностическое исследование и написать заключение.
ЭТАПЫ ПРОВЕДЕНИЯ ПСИХОДИАГНОСТИЧЕСКОГО ИССЛЕДОВАНИЯ:
ЗАПРОС спортивного тренера, который подбирает новую команду: знакомство с подопечной.
ЦЕЛЬ ИССЛЕДОВАНИЯ: выявить характерологические особенности личности девушки.
ОТБОР МЕТОДИК. Методика экспресс диагностики характерологических особенностей личности (автор методики – Маталина Т.В.).
Личностные опросники Айзенка – серия личностных опросников, предназначены для диагностики нейротизма, экстраверсии – интроверсии и психотизма, разработаны Г. Айзенком с сотрудниками. Личностные опросники Айзенка являются реализацией типологического подхода к изучению личности.
Изучение работ К. Юнга, Р. Вудвортса, И. П. Павлова, Э. Кречмера и других известных психологов, психиатров и физиологов позволило предположить существование трех базисных измерений личности: нейротизма, экстра-, интроверсии и психотизма.
Первый из опросников Г. Айзенка – «Моудслейский медицинский опросник» (MMQ) – был предложен в 1947 г. Он предназначен для диагностики нейротизма и состоит из 40 утверждений, с которыми обследуемому предлагается согласиться («Да») или не согласиться («Нет»).
Утверждения были отобраны из уже известных к тому времени опросников, при этом автор опирался на клинические описания невротических расстройств. MMQ стандартизировался на материале обследования двух групп: невротиков (1000 человек) и нормальных (1000 человек). Среднее количество ответов, совпадающих с ключом, у здоровых лиц составляло 9,98, а у невротиков – 20,01. Детальный анализ ответов, полученных по каждому утверждению MMQ (при учете различий в психиатрических диагнозах), показал, что с помощью опросника могут быть дифференцированы два типа невротических расстройств: истерические и дистимические. Исходя из этих результатов, Г. Айзенк предположил, что ответы на утверждения MMQ позволяют сделать заключение и о позиции обследуемого на шкале другого измерения личности, постулируемого этим исследователем, экстраверсии – интроверсии. Этим была начата работа по конструированию нового личностного опросника. MMQ в психодиагностических исследованиях применения не нашел. Вслед за MMQ был предложен «Моудслейский личностный опросник» (MPI), опубликованный в 1956 г. Он предназначен для диагностики нейротизма и экстраверсии – интроверсии. MPI состоит из 48 вопросов (по 24 на каждое измерение), на которые обследуемый должен ответить «Да» или «Нет». MPI разрабатывался в соответствии с теоретическими представлениями Г. Айзенка об экстраверсии – интроверсии и нейротизме и с учетом данных, полученных с помощью первого опросника.
Основанием для разработки MPI послужили данные о том, что шкалы ратимии (беззаботности) и циклоидной эмоциональности опросника Гилфорда – Мартина (один из опросников, разработанных Дж. Гилфордом с сотрудниками) дифференцируют невротиков в соответствии с теоретическими предположениями Г. Айзенка. Больные истерией по шкале ратимии получали большее количество баллов, нежели лица, страдающие реактивной депрессией и навязчивыми состояниями. В изученных клинических группах количество баллов по шкале циклоидной эмоциональности также было больше, чем у здоровых. На этой основе Г. Айзенк приступил к созданию MPI.
Предварительные исследования были проведены с использованием перечня из 261 вопроса, заимствованного из разных опросников. По результатам, полученным по шкале ратимии и циклоидной эмоциональности, были выделены (отдельно среди мужчин и женщин) две группы. Затем провели разделение на группы с высокими и низкими показателями. Используя критерий X2, осуществили анализ ответов на каждый вопрос. В итоге получили две группы вопросов, ответы на которые наиболее различались. На их основе построили две шкалы – экстра-, интроверсии и нейротизма – по 24 вопроса в каждой. С помощью установленных ранее ключей сравнили результаты исходных групп. Для отдельных вопросов были рассчитаны коэффициенты интеркорреляции, подвергнутые затем факторному анализу. Два выделенных фактора соответствовали первоначально предположенным – экстра-, интроверсии и нейротизму.
Коэффициент надежности MPI, определенный путем расщепления, для шкалы нейротизма составлял 0,85-0,90, для шкалы экстра-, интроверсии – 0,75-0,85, коэффициенты ретестовой надежности – 0,83 и 0,81 соответственно. Валидностъ обеих шкал MPI устанавливали способами, которые признаны многими исследователями методически несостоятельными, поэтому она не доказана. Обнаружена корреляция между шкалами экстра-, интроверсии и нейротизма с коэффициентом 0,15-0,40, что противоречит исходному положению Г. Айзенка о независимости данных измерений личности. Разработан сокращенный вариант MPI из 12 вопросов. Коэффициенты корреляции с полным опросником составляют по шкале нейротизма 0,86, по шкале экстра-интроверсии – 0,87.
Практическое использование MPI показало значительные расхождения между получаемыми данными и теоретическими предсказаниями автора (особенно в клинических группах). Г. Айзенк не смог убедительно опровергнуть высказанные во многих зарубежных работах замечания, однако, несмотря на критику, MPI долгое время применяли в зарубежных психодиагностических исследованиях.
На основе дальнейших исследований Г. Айзенка и сотрудников, направленных на анализ составляющих экстра-, интроверсии и нейротизма как базисных личностных измерений, был предложен новый опросник, получивший название «Личностный опросник Айзенка» (EPI). Опубликован в 1963 г., состоит из 48 вопросов, предназначенных для диагностики экстра-, интроверсии и нейротизма, а также 9 вопросов, составляющих шкалу лжи, по которой определяется наличие у обследуемого тенденции представить себя в лучшем свете (см. шкалы контрольные). Ответы, совпадающие с ключом, оцениваются в 1 балл (ответы только «Да» или «Нет»). Разработаны две эквивалентные формы опросника – А и В.
Число обследованных в ходе разработки ЕРI превышает 30 000 человек. Испытуемые были разделены на группы в зависимости от проявлений диагностируемых характеристик. Изучались ответы лиц, отнесенных компетентными экспертами в группы экстравертов или интровертов, невротиков или эмоционально уравновешенных. На основе полученных данных определялась дискриминативная возможность каждого вопроса. В ходе разработки ЕРI было установлено, что экстраверсия является фактором высшего порядка и, следовательно, в вопросах должны быть в более или менее равной доле представлены факторы низшего порядка. Прежде всего речь идет о таких выделенных Г. Айзенком компонентах экстраверсии, как импульсивность и общительность.
Коэффициенты ретестовой надежности EPI для фактора экстра-интроверсии составляют 0,82-0,85, для фактора нейротизма – 0,81-0,84, коэффициент надежности методом расщепления – 0,74-0,91. В зарубежных исследованиях сообщается о достаточной валидности EPI, иногда эти данные оспариваются. В данном опроснике существенно изменилось значение коэффициента интеркорреляции между шкалами (от +0,12 до -0,16), что соответствовало теоретическим предположениям Г. Айзенка. Предложен сокращенный вариант EPI, состоящий из 12 вопросов. Показатели корреляции с полным вариантом по шкале экстра-, интроверсии – 0,81, нейротизма – 0,79. Созданы варианты EРI для обследования детей и подростков. EPI широко используется в отечественных исследованиях, однако его адаптация полностью не завершена.
В 1969 г. Г. Айзенк и С. Айзенк публикуют новый опросник под названием «Айзенка личностный опросник» (EPQ), который предназначен для диагностики нейротизма, экстра-, интроверсии и психотизма. Так же, как и в EPI, в него включена шкала лжи. Опросник состоит из 90 вопросов (по шкале нейротизма – 23, по шкале экстра-, интроверсии – 21, по шкале психотизма – 25, по шкале лжи – 21). Однако обычно используют вариант, состоящий из 101 вопроса (из них 11 вопросов – буферные, ответы на которые не учитываются).
Изучение валидности личностного измерения «психотизм» осуществлялось обычным для исследований Г. Айзенка путем поиска экспериментальных коррелятов психотизма, сравнением результатов, полученных в группах здоровых и больных. Полученные данные спорны. Коэффициенты ретестовой надежности (месячный интервал) опросника в различных группах по шкале психотизма составляют 0,51-0,86, по шкале экстра-, интроверсии 0,80-0,92, по шкале нейротизма – 0,74-0,92, по шкале лжи 0,61-0,90. Разработан вариант опросника для обследования детей и подростков (от 7 до 15 лет).
Инструкция: «На предлагаемые вопросы испытуемый должен отвечать «да» или «нет», не раздумывая. Ответ заносится на опросные лист под соответствующим номером».
Текст опросника
Вопросы | Варианты ответов | |
Да | Нет | |
1. Любишь ли ты шум и суету вокруг себя? | | |
2. Часто ли ты нуждаешься в друзьях, которые могли бы тебя поддержать или утешить? | | |
3. Ты всегда находишь быстрый ответ, когда тебя о чем-нибудь спрашивают, если это не на уроке? | | |
4. Бываешь ли ты иногда сердитым, раздражительным, злишься? | | |
5. Часто ли у тебя меняется настроение? | | |
6. Тебе больше нравится быть одному, чем встречаться с другими ребятами? | | |
7. Бывает ли так иногда, что тебе мешают уснуть разные мысли? | | |
8. Всегда ли ты делаешь так, как тебе говорят? | | |
9. Любишь ли ты подшутить над кем-нибудь? | | |
10. Ты когда-нибудь чувствовал себя несчастным, хотя для этого не было настоящей причины? | | |
11. Ты веселый человек? | | |
12. Ты когда-нибудь нарушал правила поведения в школе? | | |
13. Многое ли раздражает тебя? | | |
14. Тебе нравится такая работа, где надо делать все быстро? | | |
15. Ты переживаешь из-за всяких страшных событий, которые чуть было не произошли, хотя все окончилось хорошо? | | |
16. Тебе можно доверять любую тайну? | | |
17. Можешь ли ты развеселить заскучавших ребят? | | |
18. Бывает ли так иногда, что у тебя без всякой причины сильно бьется сердце? | | |
19. Делаешь ли ты первый шаг для того, чтобы с кем-нибудь подружиться? | | |
20. Ты когда-нибудь говорил неправду? | | |
21. Сильно ли ты огорчаешься, если люди находят недостатки в работе, которую ты сделал? | | |
22. Любишь ли ты рассказывать смешные истории, шутить со своими друзьями? | | |
23. Часто ли ты чувствуешь себя усталым без всякой причины? | | |
24. Ты всегда сначала делаешь уроки, а играешь уже потом? | | |
25. Ты обычно весел и всем доволен? | | |
26. Обидчив ли ты? | | |
27. Любишь ли ты разговаривать и играть с другими ребятами? | | |
28. Всегда ли ты выполняешь просьбы родных о помощи по хозяйству? | | |
29. Бывает ли так, что у тебя иногда сильно кружится голова? | | |
30. Любишь ли ты поставить кого-нибудь в неловкое положение, посмеяться над кем-нибудь? | | |
31. Ты часто чувствуешь, что тебе что-нибудь очень надоело? | | |
32. Ты любишь иногда похвастаться? | | |
33. Ты чаще всего молчишь в обществе других людей? | | |
34. Ты иногда волнуешься так сильно, что тебе трудно усидеть на месте? | | |
3.5. Ты быстро решаешься на что-нибудь? | | |
36. Ты иногда шумишь в классе, когда нет учителя? | | |
37. Тебе часто снятся страшные сны? | | |
38. Можешь ли ты забыть обо всем и от души повеселиться среди своих друзей, приятелей, подруг? | | |
39. Тебя легко огорчить чем-нибудь? | | |
40. Случалось ли тебе говорить плохо о ком-нибудь? | | |
41. Можешь ли ты назвать себя беспечным, беззаботным человеком? | | |
42. Если тебе случится попасть в неловкое положение, ты потом долго переживаешь? | | |
43. Ты любишь шумные и веселые игры? | | |
44. Ты всегда ешь все, что тебе предлагают? | | |
45. Тебе трудно отказаться, если тебя о чем-нибудь просят? | | |
46. Ты любишь часто ходить в гости? | | |
47. Бывают ли такие моменты, что тебе не хочется жить? | | |
48. Ты когда-нибудь был грубым с родителями? | | |
49. Тебя считают веселым человеком? | | |
50. Ты часто отвлекаешься, когда делаешь уроки? | | |
51. Ты больше любишь сидеть в стороне и смотреть, чем самому принимать участие в общем веселье? | | |
52. Тебе обычно бывает трудно уснуть из-за разных мыслей? | | |
53. Ты обычно бываешь уверен в том, что сможешь справиться с делом, которое тебе поручают? | | |
54. Часто ли ты чувствуешь себя одиноким? | | |
55. Ты стесняешься первым заговаривать с незнакомыми людьми? | | |
56. Часто ли ты решаешься на что-нибудь, когда уже поздно? | | |
57. Когда кто-нибудь из ребят кричит на тебя, ты тоже кричишь в ответ? | | |
58. Ты иногда чувствуешь себя особенно веселым или печальным без всякой причины? | | |
59. Ты считаешь, что трудно получить настоящее удовольствие в гостях, на утреннике, на елке? | | |
60. Тебе часто приходится волноваться из-за того, что ты сделал что-нибудь, не подумав? | | |
ИНТЕРПРЕТАЦИЯ ДАННЫХ. Девушка очень энергична, жизнерадостна. Она очень легко учится, мало утомляема. Однако такие подростки с детства привыкают, что им всё доступно. В результате чего не учатся серьёзно работать над достижением цели. Легко всё бросают. Поверхностны.
РЕКОМЕНДАЦИИ: Тренеру следует учитывать данные характерологические проявления. Не стоит выбирать девушку на лидерские должности в команде. Строго требовать выполнения поручений. Желательно вместе с подростком поставить цель, и контролировать её выполнение. Это поможет добиться поставленной цели и приучит к упорядоченной работе в команде.
Список использованной литературы:
1. Анастази А. Психологическое тестирование: Пер. с англ. В 2 кн. / Под ред. К.М. Гуревича, В.И.Лубовского. - М. Педагогика, 1982. – Кн. 1,2.
2. Бодалев А.А., Столин В.В., Аванесов В.С. Общая психодиагностика - СПб.: Изд-во «Речь», 2006. - 440 с.
3. Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2005. - 351 с.
4. Бурлачук Л.Ф., Морозов С.М. Словарь - справочник по психологической диагностике. - Киев: Наук. Думка, 1989.- 200 с.
5. Гинзбург М.Р. Психологическое содержание личностного самоопределения // Вопросы психологии. – 1994. - № 3. – с. 43 – 53.
6. Глэддинг С. Психологическое консультирование. 4-е изд. - СПб.: Питер, 2002. - 736 с: ил. - (Серия «Мастера психологии»).
7. Гордеева О.В Представления Выготского Л.С. о самосознании. / Психологический журнал. - 1996. - № 5 - с. 31-42.
8. Дидактическиетесты: технология проектирования: Методическое пособие для разработчиков тестов / Е.В. Кравец, A.M. Радьков, Т.В. Столярова, Б.Д. Чеботаревский; Под общ. науч. ред. A.M. Радькова. - Мн.: РИВШ, 2004. - 87 с.
9. Клайн П. Справочное руководство по конструированию тестов / Пер. с англ., - Киев, 1994. - 284с.
10. Лаак Я. Тер Психодиагностика: проблемы содержания и методов. - М.: Издательство «Институт практической психологии», Воронеж: НПО «МОДЭК», 1996 - 384с.
11. Лучинин А.С. Психодиагностика. Конспект лекций: Эксмо; Москва; 2008 – 109с.
12. Немов Р.С. Психология: Учеб. Пособие для студентов высш. Пед. Учеб. заведений: В 3 кн.: Экспериментальная педагогическая психология и психодиагностика. - М.: Просвещение: ВЛАДОС, 1995. - 512с.
13. Нормативные предписания к разработчикам и пользователям психодиагностических методик // Вопр. психологии. -1987. -№5. - с. 176-181.
14. Общая психодиагностика / Под ред. А.А.Бодалева, В.В.Столина. - М.: Изд-во МГУ, 1987.- 304с.
15. Общая психодиагностика. Методические указания. // Автор-составитель О. В. Белова.- Новосибирск: Научно-учебный центр психологии НГУ, 1996.
16. Попов И.К. Введение в общую психодиагностику. Курс лекций. – Красноярск: КГТУ, ИИСС, 2003. – 192с.
17. Практическая психология в тестах, или как научиться понимать себя и других. - М.: АСТ-ПРЕСС, 1998.- 376с.
18. Психологическая диагностика: Учебное пособие / Под ред. К.М. Гуревича и Е.М. Борисовой. — М.: Изд-во УРАО, 1997. – 325с.
19. Романова Е. С.Психодиагностика: Учебное пособие. — СПб.: Питер, 2005. — 400 с.: ил. — (Серия «Учебное пособие»).
20. Шмелев. А.Г. Основы психодиагностики. – Ростов - на Дону, 1996г.