3.9. Стандартизация теста
Одним из важных отличий психометрических тестов является то, что они стан- дартизированы, а это позволяет сравнить показатели, полученные одним испы- туемым, с таковыми в генеральной совокупности или соответствующих группах.
168 Глава 3.
Психометрические основы психодиагностики: основные этапы...Тем самым достигается адекватная интерпретация показателя отдельного испы- туемого. Таким образом, стандартизация теста наиболее важна в тех случаях, ког- да осуществляется сравнение показателей обследуемых. При этом вводится поня- тие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности до- статочной будет выборка из 500 испытуемых. Однако репрезентативность выбор- ки не зависит от ее объема. Например, для того чтобы получить нормативные по- казатели для всей популяции детей, обучающихся в начальной школе, потребует- ся выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандар- тизации или стратифицировать группу стандартизации относительно таких пара- метров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обя- зательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.
Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:
где SD — стандартное отклонение; X2 — результат всего опросника всех испытуе- мых; п — количество испытуемых; — сумма.
Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъ- являемых к психологическому измерению.
Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получа- ют двумя путями: линейным и нелинейным преобразованием первичных («сы- рых») оценок. В случае линейного преобразования сохраняются все свойства ис- ходного распределения «сырых» оценок, и такие показатели называются стандарт- ными или z-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандарт- ное отклонение нормативной группы. Формула имеет вид:
Здесь необходимо сказать о том, что основной причиной преобразования пер- вичных оценок в некоторую производную шкалу является желание получить по- казатели, которые сопоставимы между собой вне зависимости от того, по какому
3.9. Стандартизация теста 169
тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по кото- рым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандарт- ным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводит- ся процент случаев, приходящихся на участки, которые отстоят от среднего нор- мальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нор- мализованного стандартного показателя. Эти показатели, как и линейно преоб- разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот- ветствующую среднему нормальной кривой, превосходя 50 % группы.
В случае, если показатель равен —1, испытуемый превосходит примерно 16 % группы, а ес- ли + 1 — превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «T-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан- дартное отклонение и т. д. С другими, не менее популярными нелинейными пре- образованиями «сырых» показателей теста, можно ознакомиться в соответствую- щей литературе1.Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени не- обходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо- жить, что процесс их старения будет ускоряться. Для наглядности этапы конст- руирования теста представлены на рис. 3.1.
Пример из практики: определение надежности опросника 16 PF Кеттелла. Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) от- носится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непро- фессионально, с нарушением всех норм и правил, предъявляемых к психологиче- ским тестам.
Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные
См., напр., БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. — СПб.: Питер,
1999, а также Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с англ. — М.: Прогресс, 1976.
170 Глава 3. Психометрические основы психодиагностики: основные этапы.
Рис.
3.1. Этапы конструирования теста«ключи» к его факторам. Опубликованные в многочисленных сборниках и бро- шюрах варианты опросника не защищены (!) от ошибок и произвольного вмеша- тельства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отече- ственных зыборках, то непонятно, какого рода результаты получали его многочи- сленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ста- вилась задача проверки факторной структуры 16PF на. национальных выборках:
3.9. Стандартизация теста 171
это статьи В. М. Русалова и О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль- ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множе- ством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PF измеряется нечто, имеющее неясное отношение к факторам лич- ности, выделенным и описанным Кеттеллом.
Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст иссле- дуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или сред- нее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).
Как известно, точность измерения с помощью психодиагностического инстру- мента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально по- лученные нами, были оценены по авторским ключам на внутреннюю согласован- ность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:
где a — коэффициент Кронбаха; r — количество заданий теста; S — дисперсия по
j-му пункту теста; — дисперсия суммарных баллов по всему тесту.
В табл.
3.6 содержатся данные о внутренней согласованности факторов лично- сти, полученные по авторским «ключам» (приведено буквенное обозначение фак- тора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетвори- тельно для большинства факторов. А фактор N вообще измеряет нечто, не имею- щее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор F (сургенция—десургенция) и фактор H пармия—тректия (сме- лость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или суще- ствования известных культурных различий.Для того чтобы выявить, что же именно стоит за данными, получаемыми с по- мощью 16PF, мы использовали факторный анализ. Факторы извлекались методом
Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталию
Духневичу.
172 Глава 3. Психометрические основы психодиагностики: основные этапы...
Таблица3.6
Данные о внутренней согласованности
по факторам личности, выделенным Кеттеллом
№ Обозначение фактора
1 А
2 С
3 Е
4 F
5 G
6 Н
7 I
8 L
9 М
10 N
И 0
12 Q1
13 Q2
14 Q3
15 Q4
Коэффициент
Кронбаха
0,335699
0,293849
0,210113
0,640528
0,403974
0,727452
0,521693
0,172452
0,138720
0,005232
0,443746
0,002209
0,379002
0,452439
0,486635
главных компонент, оценка общностей производилась после выделения факторов.
Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике
пи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно рас- положены так называемые «шумящие» факторы.
Этот критерий позволяет выде-Номер собственного значения
Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов
3.9. Стандартизация теста 173
лить гораздо меньшее число факторов, чем применяемый большинством пользо- вателей статистических пакетов метод Кайзера, базирующийся на величине соб- ственного значения фактора. Вращение факторов производилось методом VARIMAX c нормализацией по Кайзеру. Коэффициенты факторных баллов были вычислены методом регрессии. Статистическая обработка производилась с помо- щью программы SPSS для Windows (версия 5.0). В качестве значимых рассматри- вались нагрузки заданий, которые по абсолютной величине превосходили 0,3. Данная граница была принята по следующим соображениям: поскольку нагрузка представляет собой коэффициент корреляции задания и фактора, при данном его объеме эта величина является значимой и позволяет объяснить до 10 % вариации задания. Как показывает опыт, установление более высокой границы приводит к резкому падению согласованности шкалы, особенно при кросс-валидизации. При этом заметим, что небольшое количество наших испытуемых, конечно, не репре- зентирует генеральную совокупность. Кроме того, нами не проводилось исследо- вание стойкости факторного решения, полученного в исследовании (кросс-вали- дизация). Наконец, задания по фактору В, а также задания 1,2 и 187 были исклю- чены из анализа.
Обычно на таком графике кривая имеет две точки изгиба. Для интерпретации оставляют те факторы, которые размещены перед вторым изгибом кривой. Полу- чается, что в нашем случае следует оставить 7 факторов. Интересно, что прибли- зительно такое же количество факторов обнаруживается в большинстве исследо- ваний структуры личностной лексики в разных языках и совокупностей заданий личностных опросников. Выделенные факторы были интерпретированы следую- щим образом.
1. Тревожность — эмоциональная стабильность.
2. Энергичность, активность — пассивность.
3. Настойчивость, уверенность в себе — покорность, подверженность влия- нию.
4. Сила Сверх-Я — слабость Сверх-Я (данный фактор соответствует факто- ру G Кеттелла).
5. Обособленность — зависимость от группы (этот фактор соответствует фак- тору Q2 Кеттелла).
6. Рациональность, практичность — мечтательность.
7. Импульсивность — сдержанность, самоконтроль.
Интересным представляется тот факт, что лишь три отмеченных фактора со- ответствуют тем, которые выделены Кеттелом. Это, на наш взгляд, свидетельству- ет о том, что данные факторы (G, Q3 и Q2) настолько устойчивые характерологиче- ские конструкты, что имеет сходство в англоязычной и русскоязычной культурах. Также заслуживает внимание тот факт, что большинство факторов соответствуют факторам, полученным в других работах (Виноградов, 1997). Это еще раз подтвер- ждает надежность полученных результатов.
Нагрузки заданий опросника по семи факторам приведены в табл. 3.7 (вклю- чены нагрузки, абсолютное значение которых не менее 0,3).
174 Глава 3. Психометрические основы психодиагностики: основные этапы...
Таблица 3.7
Выделенные факторы и вопросы, их определяющие
Вопросы, «работающие» на выделенные факторы, были подвергнуты стати- стической обработке с последующим анализом полученных показателей внутрен- ней согласованности. Результаты представлены в табл. 3.8.
Таблица3.8
Значение Коэффициента Кронбаха для выделенных факторов
Нетрудно убедиться, что значения коэффициента надежности—согласованно- сти Кронбаха достаточно велики для выделенных факторов, а это свидетельству- ет об однородности построенных шкал. Поскольку не существует формальных способов проверки гипотезы о равенстве нулю коэффициента Кронбаха, в своей работе мы использовали его лишь в качестве дескриптивной меры согласованно- сти заданий исходных и полученных с помощью факторного анализа шкал. На- помним, что для шкал опросников наиболее характерны значения коэффициента Кронбаха в диапазоне 0,6-0,8.
3.9. Стандартизация теста 175
На завершающем этапе исследования нами были рассчитаны среднее и стан- дартное отклонения для новых и оригинальных ключей1 (табл. 3.9,3.10).
Таблица 3.9
Нормативные данные для выборки из 22 7 испытуемых
(новые «ключи»)
Название фактора Среднее Стандартное
отклонение отклонение Тревожность — эмоциональная стабильность Энергичность, активность — пассивность Настойчивость, уверенность в себе — покорность, подверженность влиянию Сила «Сверх-Я» — Слабость «Сверх-Я» Обособленность — зависимость от группы Рациональность, практичность — мечтательность Импульсивность — сдержанность
Таблица 3.10
Нормативные данные для выборки
из 22 7 испытуемых (оригинальные «ключи»)
Фактор Среднее Стандартное отклонение отклонение
Результаты проведенного исследования позволили ответить на вопрос о том,
насколько мы точны в измерении факторов, постулированных Кеттеллом. Пред-
Для получения стандартного показателя из «сырого» балла вычитается среднее и делится на стан- отклонение по шкале. Этот показатель в будущем будет использоваться для того, чтобы привести полученные данные к стандартной шкале. В нашем случае это шкала стенов (от 1 до 10, со средним 5,5 и стандартным отклонением 2).
176 Глава 3. Психометрические основы психодиагностики: основные этапы...
варительные нормативные данные могут служить ориентиром для заключений об относительной степени выраженности у испытуемого некоторых личностных черт. Памятуя об ограниченности выборки, отметим, что новые «ключи» и нормы следует использовать с известной осторожностью.
Еще по теме 3.9. Стандартизация теста:
- Проверочный лист для оценки валидности
- 6.7.3. Тесты интеллекта
- 6.7.7. Личностные тесты
- Глава 6. Диагностика психических свойств личности
- Лекция 25. Профессиональноэтнические принципы и психометрические основы психодиагностики
- Оглавление
- 3.8. Валидность теста
- 3.9. Стандартизация теста
- § 2. Возникновение тестирования
- Краткий терминологический словарь