Психометрические требования к построению и проверке методик кратко

Обновлено: 04.07.2024

Психологическая диагностика предназначена для того, чтобы обеспечить сбор информации об особенностях человеческой психики. Современная психологическая диагностика определяется как психологическая дисциплина, разрабатывающая методы выявления и изучения индивидуально-психологических и индивидуально-психофизиологических особенностей человека. Под психодиагностикой подразумевается также и область психологической практики, работа психолога по выявлению разнообразных качеств, психических и психофизиологических особенностей, черт личности.

Методологической основой психодиагностики называют психометрику - науку об измерении индивидуально-психологических различий, которая разрабатывает технологию создания конкретных методик, применяемых в психодиагностике - тестов. Она же определяет методологию обеспечения научных требований к этим методикам - а именно, требования надежности, валидности, а также выделяемое некоторыми авторами как самостоятельное требование - достоверности.

1. Сущность дифференциальной психометрии

Психометрия - раздел психологии, изучающий теоретические и методологические проблемы психологических измерений. Занимается разработкой математических моделей психологического измерения (модель Терстоуна, модель многомерного шкалирования, модель латентных черт), регламентирует экспериментальную проверку по критериям валидности, надежности и пр. выявляемых психологических свойств. Целесообразно разделять психометрию. на "общую" и "дифференциальную".

Первая устанавливает числовые соответствия между каким-то свойством стимула (например, интенсивностью света, звука) и соответствующим ощущением определенной силы (яркостью, громкостью и т.п.).

Дифференциальная психометрия выражает в количественной форме индивидуальные психологические различия между людьми. Понятие "психометрия" впервые было использовано в первой половине ХVII в. немецким философом Х. Вольфом. Христиан Вольф впервые указал на возможность измерения в психологии. В области дифференциальной психологии психометрия является технологической основой для измерительной психодиагностики.

Целью дифференциальной психометрии является разработка требований к измерительным психодиагностическим методам. Эти требования относятся к адаптации методов, интерпретации получаемых данных, к процедуре разработки методов, разработке и применению математического аппарата для анализа получаемых данных.

В этой второй области психометрии. разработаны основные критерии качества психологического измерения - такие свойства психологических тестов, как надежность, валидность, репрезентативность.

Для психологии, как и для других наук о человеке, особое место занимает вопрос о качестве, получаемом в процессе применения различных методов и средств. В этой связи могут быть выделены два вида параметров качества информации: объективные и субъективные.

Эти требования, в первую очередь касаются качества того инструмента (теста), посредством которого собираются данные, и, прежде всего точности, достоверности и адекватности методики измерения.

Вот основные из них:

1) использование шкалы интервалов;

5) наличие нормативных данных.

Рассмотрим подробнее валидность и надежность.

2. Валидность как свойство психологического текста

Валидность методики означает соответствие ее тому, что с ее помощью изучается. "Валидность теста - важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать; насколько отдельные составляющие его пробы адекватны исследуемой проблеме". Иными словами, валидность означает соответствие того, что измеряется, тому, что предполагается измерить. Рассмотрим подробнее.

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности. Например, методика "Кольца Ландольта" предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью "Колец Ландольта", вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.

1) Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?"

2) Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3) Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4) Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.

2. Требование надежности

Требование надежности - прежде всего требование внутренней согласованности частей методики и воспроизводимости результатов при повторном исследовании. "Надежность свидетельствует о свойстве метода приводить к одним и тем же результатам при использовании этого метода разными людьми или при повторном применении данного метода одним и тем же человеком с целью оценивания одного и того же психологического свойства".

О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:

1) При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2) Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования.

В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3) При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

Ретестовый метод - повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм - повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.

Требования к построению параллельных форм:

1. параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

2. должны содержать одинаковое количество заданий со сходной степенью трудности;

3. эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно - остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Дискриминативность - это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно ''максимального" и "минимального" результатов теста. Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики, или, другими словами, насколько чувствителен инструмент. Таким образом, это степень приближения результатов измерения к истинному значению измеряемой величины.

Конечно, каждый исследователь должен стремиться получить наиболее точные данные. Однако создание инструмента, обладающего нужной степенью точности, в ряде случаев достаточно трудное дело. Всегда необходимо решить, какая мера точности является допустимой. При определении этой меры исследователь пользуется всем арсеналом теоретических представлений об объекте.

При помощи тщательного конструирования теста можно обеспечить соответствующий уровень дискриминативности, а это именно то, в чем тесты значительно выигрывают по сравнению с другими формами испытаний. В общем, было обнаружено, что в оценке может быть использовано около девяти градаций, а в опросах, вероятно, наиболее эффективно использовать 3 (или пять) градации: ниже среднего, средний уровень и выше среднего. Подобно этому, шкалы ранжирования редко содержат более девяти градаций. Это означает, что испытуемые разбиваются в лучшем случае на девять групп.

4. Достоверность теста

психика психологическая диагностика психометрия

Особой разновидностью валидности является достоверность, которая требует специальных усилий и процедур по ее обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит 6 тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении.

Способность теста защищать информацию от мотивационных искажений испытуемого и есть достоверность теста. Особенно остро эта проблема стоит в случае тестов-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности - наличие в тест-опросниках шкал лжи. Шкала лжи - это шкала, состоящая из вопросов, касающихся незначительных проступков, которые совершаются большинством людей. Эти шкалы основываются главным образом на феномене социальной желательности - стремлении испытуемых давать в ходе тестирования социально одобряемую информацию.

Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз, будучи более откровенным, либо выполнить другой тест. Многие более специфичные "ловушки", направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста.

Достоверность тестирования тесно связана со степенью доверительности общения с психологом. Здесь принято различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (например, в профконсультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т.е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Целью данного реферата было рассмотреть общее понятие о дифференциальной психометрии и областях ее применения.

В соответствии с поставленным целям в реферате были исследованы: сущность дифференциальной психометрии, области ее применения, а также психометрические требования, такие как надежность и валидность качества исследований.

Были сделаны следующие выводы:

1. Дифференциальная психометрия – область психометрии, определяющая и обосновывающая требования к измерению индивидуально-психологических различий в психологической диагностике.

2. Дифференциальная психометрия, как особое направление психометрии, возникла в связи с появлением и развитием психологических тестов и окончательно оформилась в конце 20-х – начале 30-х гг. нашего века.

3. Основными направлениями дифференциальной психометрии являются: общая теория измерения психологических феноменов, конструирование на ее основе средств измерения, их психометрическая адаптация к новым условиям пользования, а в связи с этим анализ задач тестовых, обеспечение их валидности, надежности и дискриминативности.

Как видно из обсуждения проблемы, все вышеперечисленные требований к методикам взаимосвязаны. Нарушение одного требования сводит на нет и другое: скажем, данные могут быть обоснованны, но не устойчивы. В психологическом исследовании такая ситуация может возникнуть тогда, когда проводимое тестирование оказалось ситуативным, т. е. время его проведения могло играть определенную роль и в силу этого возник какой-то дополнительный фактор, не проявляющийся в других ситуациях.

Список использованной литературы

1. Общая психодиагностика / Под ред. А.А.Бодалева, В.В.Столина.– М.: Изд-во МГУ, 1987.

2. Словарь-справочник по психологической диагностике / Бурлачук Л.Ф., Морозов С.М., отв. ред. С.Б. Крымский. – Киев : Наук. думка, 1989. С. 114-116.

3. Ярошевский М.Г. История психологии. – М.: Мысль, 1976. С.463

4. О. В. Белова. Психологическая диагностика как наука.

Раздел: Психология
Количество знаков с пробелами: 16946
Количество таблиц: 0
Количество изображений: 0

Психометрия — область психологической диагностики, связанная с теорией и практикой измерений в психологии.

Это понятие было введено немецким исследователем X. Вольфом, который ставил перед собой задачу измерить величину внимания посредством продолжительности аргументации, за которой человек в состоянии проследить.

1. К общей психометрии относятся измерения общепсихологического (свойственного всем людям) характера, т. е. функциональные зависимости между свойствами стимула и свойствами субъективных реакций.

2. К дифференциальной психометрии относятся измерения, касающиеся индивидуальных различий между людьми по способностям, когнитивным функциям (внимание, память, мышление и т. д.), мотивам, эмоциональным особенностям и пр. Здесь числовые значения (баллы, ранги, шкальные значения) приписываются не стимулам, а индивидам.

Дифференциальная психометрика по отношению к психодиагностике и дифференциальной психологии выступает в качестве технолого-методической дисциплины. Она обосновывает требования, которым должны удовлетворять психодиагностические методики, процедуру их разработки и применения. К числу таких требований относятся стандартизация, надежность и валидность методик.

Выше говорилось о том, что психодиагностические методики называют измерительными инструментами. Однако возникает вопрос, правомерно ли их так называть, являются ли они таковыми, подобными, например, тем, которые используются в физических измерениях?

Ответ на этот вопрос можно найти в работах К. М. Гуревича. На примере анализа тестов он показывает, что такое определение диагностических методик носит условный характер. Сначала нужно вспомнить, что представляет собой измерение. Измерить — значит определить какой-либо мерой величину измеряемого. Для этого нужно, чтобы были соблюдены по крайней мере два условия.

1. Первое условие касается самого измерительного инструмента: он должен иметь на протяжении всего измерения одну и ту же, тождественную самой себе меру. Нельзя измерять инструментом, у которого нет такой тождественной самой себе меры (например, если бы на линейке расстояния от одного деления до другого были неодинаковы на разных участках).

2. Второе условие — нужно, чтобы то, что измеряется, во всех случаях оставалось одним и тем же, т. е. также было тождественно самому себе. К. М. Гуревич считает, что соблюсти эти два условия в психодиагностических исследованиях крайне затруднительно.

Например, в тесте предложены задания на умение производить такую логическую операцию, как классификация понятий. Так, даны понятия пшеница, чечевица, кукуруза, бамбук, ячмень. Испытуемый должен зачеркнуть слово, которое не подходит к четырем основным. Обычно испытуемые зачеркивают бамбук. Это ошибка. Бамбук, как пшеница, ячмень и кукуруза, относится к злаковым, а чечевица— к бобовым. Это слово и следует зачеркнуть.

Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

Чем можно объяснить, что не все испытуемые дают правильный ответ?

1) испытуемый слабо владеет такой логической операцией, как классификация;

2) испытуемый владеет логической операцией, но не знает того материала, на котором ее надо применить;

3) испытуемый знает материал, владеет логической операцией, но он не способен работать в том обычно довольно быстром темпе, который требуется при выполнении теста.

Как было показано выше, у одних испытуемых оно измеряет что-то одно, у других — другое. У испытуемых, владеющих соответствующим материалом, оно измеряет то, на что направлено, — владение логической операцией. У тех же испытуемых, которым материал задания малознаком, измеряется их знание. Кроме того, у тех и других измеряется их индивидуальный темп.

Этот анализ К. М. Гуревич продолжает дальше. Тест состоит из целого набора заданий; иногда их число доходит до 40. Можно ли выполненное задание считать мерой, через которую определяется количественный показатель измеряемой стороны психики?

Нельзя, так как эта мера измеряет разные стороны психики. У одних выявляется владение логическими действиями, у других — знание тех понятий, которые представлены в тесте, у третьих фактически измеряется их темп; у одних эта мера имеет одно, а у других — другое содержание.

На основании проведенного анализа К. М. Гуревич делает вывод о том, что данные, которые получаются в тестировании, нельзя считать измерениями в подлинном смысле слова. Тест не является измерительным инструментом в том понимании, которое существует, например, в физических измерениях, хотя какую-то оценку той стороны психики, на диагностирование которой он направлен, тест показывает — правда, не в количественном выражении.

Тест можно считать инструментом сравнения. При сравнении не подчеркивается, что из двух сравниваемых объектов один больше другого на столько-то единиц. В этом случае достаточно установить, что такой-то объект больше другого (или других). По результатам сравнения можно расположить все изучаемые объекты в определенном порядке — от меньшего к большему или наоборот. Сравнение не предполагает обязательного измерения, а значит, не предполагает и единицы измерения. При сравнении устанавливается только последовательность, порядок сравниваемых объектов по их величине.

Сделанный К. М. Гуревичем вывод относительно тестов с полным правом может быть перенесен и на другие диагностические методики.

Для уверенности в достоверности результатов психодиагностических исследований необходимо, чтобы используемые психодиагностические методы были научно обоснованы, т. е. отвечали ряду требований. Такими требованиями являются:

Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована. Стандартизация — это единообразие процедуры проведения и оценки выполнения теста. Рассматривается она в двух планах:

♦ как выработка единых требований к процедуре эксперимента;

♦ как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведении эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;

4) эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и т. д.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т. д.);

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

© 2014-2022 — Студопедия.Нет — Информационный студенческий ресурс. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав (0.003)

Для учеников 1-11 классов и дошкольников
Бесплатные сертификаты учителям и участникам

3. Психометрические основы психолого-педагогической диагностики

Цель — ознакомление с основными психометрическими требованиями к измерительным диагностическим методикам.

— рассмотреть основные типы измерительных шкал;

— определить необходимость стандартизации и ознакомить с видами норм принятыми в диагностике;

— рассмотреть и описать процедуру разработки и применения основных психометрических требований.

3.1. Типы шкал измерения

Знание психометрии дает диагносту необходимый материал для понимания ограниченности методик, тех допущений, которые были сделаны авторами для целей исследования.

Психометрия — наука, обосновывающая и разрабатывающая измерительные диагностические методы. Она научно обосновывает те требования, которым должны удовлетворять измерительные психодиагностические методы, и описывает определенные процедуры их разработки и применения.

Психометрические требования касаются качества того инструмента (теста), посредством которого собираются данные. Психологический тест может быть охарактеризован как эффективный при условии, что он удовлетворяет следующим требованиям: использование шкалы интервалов; наличие нормативных данных (либо критериев, установленных экспертами); надежность; валидность; достоверность; репрезентативность; дискриминативность.

Шкала — это форма фиксации совокупности признаков изучаемого объекта с упорядочиванием их в определенную числовую систему.

Значения признака или переменной определяются (измеряются) при помощи специальных шкал измерения:

1) номинативная (наименований);

4) равных отношений.

Рассмотрим особенности каждой из вышеперечисленных шкал.

Номинативная (наименований) шкала. Это шкала, классифицирующая по названию. Название не измеряется количественно, оно лишь позволяет отличить один объект от другого. Это простейшая классификация испытуемых, например: мужчина-женщина; имеет братьев и сестер — единственный ребенок в семье и т.п.

В данной шкале не известно истинное расстояния между классами, а известно лишь то, что они образуют последовательность.

От классов переходят к числам (низший класс получает ранг 1, средний класс 2, а высший — ранг 3, или наоборот).

Шкала равных отношений. Это шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства. В отличие от интервальной шкалы она имеет значимую нулевую точку, которая не произвольна, а указывает на полное отсутствие измеряемого свойства.

Наличие нулевой точки — проблема для большинства психологических переменных, так как возможности человеческой психики столь велики, что трудно представить абсолютный нуль в какой-либо измеряемой психологической переменной.

3.2. Понятие норм и стандарта в диагностике

Стандартизация — это единообразие процедуры проведения и оценки выполнения теста, которую рассматривают в двух планах:

1. Стандартизация процедуры, что подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов и условий проведения обследования.

2. Выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний. Такой точкой отсчета являются нормы.

Нормы — это множество показателей из четко определенных выборок. Психологические тесты не имеют заранее определенных стандартов их успешного или неуспешного выполнения; критерии выполнения каждого теста устанавливаются опытным путем. В большинстве случаев тестовый показатель индивидуума выявляется на основе сравнения с оценками, полученными по данному тесту другими людьми. Для обоснования вывода о норме необходимо: 1) сравнить результаты с выборкой стандартизации, т.е. выборкой испытуемых численностью не меньше 200 человек и совпадающих по полу, возрасту, образованию, социальному положению и т.п.; 2) полученный результат перевести в некую относительную меру. Всякая норма обычно со временем изменяется вместе с естественными изменениями, которые с годами происходят в психологии людей, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет.

Принято различать два вида норм: статистические и социокультурные (социально-психологический норматив).

Первый вид применяется для оценки стилевых и мотивационных черт, второй — для оценки способностей и достижений.

Статистическая норма — это уровень развития человека, который соответствует среднестатистическим (количественным) показателям, полученным при обследовании представительной группы людей того же возрастного диапазона, пола, культуры и т.п.; это близость значения свойства к тому уровню, который характеризует статистически среднего индивида.

Для вычисления статистической нормы обратились к приемам математической статистики — определение распределения .

Распределением называется закономерность встречаемости разных значений измеряемого признака. Форма распределения является обобщенной характеристикой выборки. Кривые распределения бывают одновершинные и многовершинные.

В психологии рассматривают нормальное распределение, или распределение по нормальному закону, кривая распределения Гаусса, предложенная им в 1908 г.

Нормальное распределение характеризуется тем, что крайние значения признака в нем встречаются достаточно редко (16%), а значения, близкие к средней величине, достаточно часто (68%).

Для описания нормального распределения достаточно знать два показателя — среднее арифметическое признака (Хср) и стандартное отклонение (σ). Границы статистической нормы определяются по формуле Хср ± σ.

В диагностике существует и другой подход к оценке результатов диагностических испытаний. В нашей стране под руководством К.М. Гуревича были разработаны тесты, в которых в качестве точки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.

Социокультурный или социально-психологический норматив (СПН) — это уровень свойства, который явно или неявно считается в обществе необходимым; это система требований, которые общество предъявляет к психическому и личностному развитию каждого из его членов.

Требования закреплены в виде правил, норм, предписаний, они присутствуют в образовательных программах, в профессиональных и квалификационных характеристиках, общественном мнении.

СПН меняется вместе с развитием общества.

Социально-психологический норматив реализуется в совокупности заданий, составляющих тест.

Сам тест в полном его объеме и является таким нормативом (100%). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. 39

Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100%-ное выполнение всего теста, все испытуемые подразделяются по результатам тестирования на пять подгрупп (%):

1) наиболее успешные — 90-100% (10%);

2) близкие к успешным — 70-90% (20%);

3) средние по успешности — 30-70% (40%);

4) малоуспешные — 10-30% (20%);

5) наименее успешные — 0-10% (10%).

3.3. Н адежность как важное психометрическое требование к диагностической методике

Надежность — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.

Степень надежности методик зависит от многих причин. Важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов, среди которых чаще называют следующие:

1) состояние и настроение обследуемых;

2) мотивация испытуемых к тестированию;

3) эргономические факторы: время дня, освещенность, температура в помещении, наличие шумов и запахов и т.п.;

4) характеристика деятельности (монотонность — динамичность и др.);

5) степень обучаемости (или натренированности) испытуемых.

Разновидностей надежности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Все виды надежности отражают степень согласованности двух независимо полученных рядов показателей с помощью математико-статистического приема, который и устанавливает надежность методики. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

К.М. Гуревич предложил толковать надежность как:

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) относительная независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности ; показатель, характеризующий стабильность измеряемого свойства, — коэффициентом стабильности ; а показатель оценки влияния личности экспериментатора — коэффициентом константности .

Остановимся более подробно на рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

1. Определение надежности измерительного инструмента. Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используют метод расщепления.

Задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются, сравниваются между собой.

Методика признается надежной, когда полученный коэффициент не ниже 0,75—0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

2. Определение стабильности изучаемого признака. Для проверки стабильности диагностируемого признака, свойства используется прием тест—ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования (не ниже, чем 0,7).

При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием.

Используется временной интервал в несколько месяцев, но не более полугода. У детей интервалы могут быть порядка нескольких недель.

3. Определение константности. Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

К.М. Гуревич считает, что каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности.

Методика, располагающая полной характеристикой надежности, наиболее пригодна для практического применения.

3.4. Валидность диагностической методики

Вопрос о валидности методик решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Валидность — обоснованность методики.

Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но и информирует об условиях, о сфере ее применения. Существует несколько разновидностей валидности, каждую из которых нужно рассматривать и оценивать отдельно, когда стоит вопрос о выяснении валидности психодиагностической методики. Валидность может быть внутренней (конструктной) и внешней (критериальной). Внутренняя валидность определяет, насколько полно тестовые баллы отражают исследуемые психические свойства или умения и знания, обозначает соответствие содержащихся в методике заданий, суждений и тому подобное общей цели и замыслу методики в целом. Тестовая методика считается внутренне невалидной или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов и заданий измеряют не то, что требуется от данной методики. Внешняя валидность определяет полезность тестового измерения в качестве предсказателя поведения, насколько тестовые баллы связаны с некоторой другой деятельностью. Речь идет о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.

Валидность — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Проверка валидности методики называется валидизацией. Принято выделять:

1) теоретическую валидизацию — проверка валидности измерительного инструмента;

2) прагматическую валидизацию — валидность цели ее использования.

Основным элементом проверки валидности тестов является критерий валидности . Это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве.

В качестве критерия могут выступать:

— успеваемость — для тестов способностей к обучению, тестов достижений, тестов интеллекта;

— производственные достижения — для методик профессиональной направленности;

— эффективность реальной деятельности (рисования, моделирования и т.д.) — для тестов специальных способностей;

— субъективные оценки — для тестов личности.

Виды валидности, обусловленные особенностями диагностических методик и временным статусом внешнего критерия:

3.5. Достоверность, репрезентативность и дискриминативность — психометрические требования к диагностическим методикам

Достоверность — это способность теста защищать информацию от мотивационных искажений. Проблема достоверности остро стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности — наличие шкалы лжи или контрольной шкалы. Они основываются на феномене социальной желательности — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест.

Репрезетативность — это соответствие тестовых норм выборки стандартизации тестовым нормам той популяции, на которой применяется тест. Она определяется путем сопоставления качественных и количественных характеристик исследуемой популяции с целью определения их однородности.

Дискриминативность — это способность отдельных заданий и теста в целом дифференцировать обследуемых относительно максимального и минимального результатов. Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики. В оценке может быть использовано около девяти градаций, а в опросах — наиболее эффективно использовать три (или пять) градаций.

Читайте также: