Классическая теория тестов кратко

Обновлено: 05.07.2024

Классическая теория теста лежит в основе современной дифферен­циальной психометрики.

Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебни­ков, излагающих эмпирико-статистическую теорию теста, особенно выросло за по­следние 5-7 лет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.

Конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линей­ным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

Предполагается, что существует множество заданий, которые могут репрезен­тировать измеряемое свойство Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщеп­ление его на эквивалентные равные части.

Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту длиной в 10 заданий, а при 30 заданиях она равна 0,007.

Оценка стандартной надежности:

Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха:

Для определения надежности методом расщепления используется формула Спирмена—Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что результаты выполнения разных заданий можно сумми­ровать с учетом весовых коэффициентов.

Y=axi+c,

где xi — результат выполнения i-го задания, а — весовой коэффициент ответа, с — произвольная константа.

Несмотря на то, что проблеме валидности в классической теории теста уделяет­ся много внимания, теоретически она никак не решается. Приоритет отдан надеж­ности, что и выражено в правиле: валидность теста не может быть больше его на­дежности.

Валидность означает пригодность теста измерять то свойство, для измерения ко­торого он предназначен. Следовательно, чем больше на результат выполнения тес­та или отдельного задания влияет измеряемое свойство и чем меньше — другие пе­ременные (в том числе внешние), тем тест валидней и, добавим, надежнее, посколь­ку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свой­ство.

Тест невалиден (и ненадежен), если результаты тестирования определяются вли­янием нерелевантных переменных.

Каким же образом определяется валидность? Все многочисленные способы до­казательства валидности теста называются разными ее видами.

1. Очевидная валидность. Тест считается валидным, если у испытуемого скла­дывается впечатление, что он измеряет то, что должен измерять.

2. Конкретная валидность, или конвергентная—дивергентная валидность. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряю­щими заведомо иные свойства.

3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно пред­сказывать будущие профессиональные успехи.

4. Содержательная валидность. Применяется для тестов достижений: тест дол­жен охватывать всю область изучаемого поведения.

5. Конструктная валидность. Предполагает:

а) полное описание измеряемой переменной;

б) выдвижение системы гипотез о связях ее с другими переменными;

в) эмпирическое подтверждение (неопровержение) этих гипотез.

б) определять меру влияния каждого латентного свойства на результаты тести­рования.

К сожалению, в классической теории теста не выявлены причинные связи фак­торных нагрузок и надежности теста.

И пусть этот перевод и не отражает в полной мере оригинальное название, зато он вполне передает революционный порыв, связанный с внедрением IRT. В соответствии с ним, современная теория измерений способна преодолеть недостатки других теорий (в том числе и с помощью развитого математического аппарата) и решить очень многие возникающие проблемы. Но стоит ли теперь отказаться от Классической Теории Тестов (Classical Test Theory - CTT), которая также способна дать очень много полезных сведений, в пользу IRT? Постараемся ответить на этот вопрос на примере анализа одного из наших интеллектуальных тестов – ТИПС.

ПЛЮСЫ И МИНУСЫ

Сразу стоит сказать, что ни одна из теорий еще не исчерпала своих возможностей. Вопрос, прежде всего, следует ставить о достоинствах и об ограничениях каждого подхода.

  1. Модель IRT слаба в плане обеспечения внутренней согласованности теста. Необходимым условием применения модели IRT является изначальная согласованность тестовых пунктов, которые берутся в анализ.
  2. IRT-анализ предполагает необходимость использования большого массива данных (в среднем от 1000 испытуемых), а также требует использования сложного математико-статистического аппарата и специальных программных продуктов, что делает его достаточно трудоемким и дорогим методом.

С помощью методов классической теории легко провести первичный анализ качественных характеристик варианта теста в целом, а уже затем с помощью IRT более подробно исследовать характеристики заданий. Наиболее эффективно использовать IRT в ситуациях, когда у нас уже есть сформированный (внутренне согласованный) банк тестовых заданий, разработанный в рамках CTT.

Одной из основных задач IRT является переход от индикаторных переменных к латентным параметрам.

В IRT фактически устанавливается связь между двумя латентными параметрами. 1 - это уровень подготовленности испытуемых ?i, где i - номер испытуемого, варьирующийся от 1 до N (если N - количество испытуемых). 2 - трудность j-го задания ?j, где j меняется от 1 до M (обозначим M как количество заданий в тесте).

В начале 50-х годов прошлого столетия датский математик G.Rasch стал рассматривать матрицу тестовых данных как результат взаимодействия множества испытуемых с множеством заданий. При этом естественным образом принималась аксиома - чем труднее задание для данного испытуемого, тем ниже вероятность правильного ответа. Из этой аксиомы неизбежно вытекало свойство функциональности модели: вероятность правильного ответа испытуемых на задание j есть функция от взаимодействия двух параметров – от уровня подготовленности испытуемых и от уровня трудности задания (?j). Графический образ такой функции представлен на рис. 2.


Рис. 2. Характеристическая кривая тестового задания.

Чем выше крутизна кривой задания, тем выше дифференцирующая способность задания. Включение в тест заданий с пологими характеристическими кривыми не всегда целесообразно: задания могут измерять, помимо интересующего свойства, ещё и какое-то другое.

ОСНОВНЫЕ ДОПУЩЕНИЯ IRT:

  • 1) существуют латентные/скрытые параметры личности (которые недоступны для непосредственного наблюдения). Например, в интеллектуальном тестировании - это уровень подготовленности испытуемого и уровень трудности задания);
  • 2) существуют индикаторы, которые связаны с латентными параметрами, но в отличие от них, доступны для наблюдения. По значениям индикаторов можно судить о значениях латентных параметров;
  • 3) оцениваемый латентный параметр должен быть одномерным (шкала должна измерять одну и только одну переменную.) Если условие одномерности не выполняется, то необходимо работать над тестом, проверить согласованность заданий, размерность теста и т.д. Все задания, которые нарушают гомогенность, должны быть исключены из шкалы.

! Мы указали только самые общие допущения IRT. Существуют и другие, связанные с математико-статистическим аппаратом для обработки эмпирических данных.

ТЕОРИЯ И ПРАКТИКА

В фокусе исследований IRT находится, прежде всего, проверка формальных свойств заданий для повышения точности измерения, принятия решения о включении проверяемых заданий в тест: построение характеристических кривых заданий, проверка размерности теста и согласия данных с моделью.

! Все расчеты производились с помощью специального программного обеспечения для модели Раша (Winsteps 3.75).


Рис.3. Общие статистики (Summary statistics).

Обращает на себя внимание высокий показатель внутренней согласованности (Альфа Кронбаха) – 0,71, что закономерно, т.к. тестовые задания были отобраны с использованием CTT (то есть можно сказать, что задания были изначально согласованы). Мы использовали большую выборку (3370 человек). Данная выборка была признана достаточной для проведения анализа (показатель item reliability).

Одной из главных задач теста является измерение латентной переменной (собственно, исследуемого конструкта). Однако здесь встает вопрос – как узнать, что данная шкала свободна от смешений с побочной переменной. IRT предлагает нам способ определить размерность шкалы (рис.4).


Рис. 4. Определение размерности (Dimensionality).


Рис.5. Определение размерности (Dimensionality).

Многих разработчиков интересует вопрос трудности заданий и их распределение на шкале (Достаточно ли трудных заданий? Или тест содержит слишком много легких заданий?). На эти вопросы может ответить карта заданий и респондентов (рис.6).

Можно сказать, что распределение заданий в шкале Вычисления является оптимальным, однако, есть и что улучшать. Можно заметить, что задание 21 (v_21) является слишком сложным и его следует исключить, а простых заданий (как 7-ое) в тесте, напротив, можно добавить. Обновление методики будет предполагать написание новых заданий (аналогичных 7-ому), сбор данных по новой версии и повторный расчет внутренней согласованности теста (в рамках CTT), за которым последует IRT-анализ.


Рис.6. Карта заданий и респондентов (слева распределение респондентов, справа – заданий, относительно шкалы логитов, где +M – средняя трудность/подготовленность).

Конечно, мы перечислили далеко не все возможности IRT анализа (как минимум, стоит упомянуть проверку заданий на согласие с моделью и построение характеристических кривых для вопросов), мы назвали лишь самые общие и простые возможности улучшить классический анализ теста.

Таким образом, мы на практике убедились в продуктивности IRT-подхода. Как и в необходимости предварительного анализа средствами СТТ. Впрочем, не менее любопытен и другой факт: созданный сугубо в русле классической теории ТИПС с честью выдержал проверку средствами IRT.

классической теории тестов является известный британский психолог, автор факторного анализа, Чальз Спирмен.

Конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов.

Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение

совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из

физики. Считается, что тест — такой же измерительный прибор, как вольтметр, термометр или барометр, и

результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры

выводится понятие ретестовой надежности: чем теснее коррелируют результаты начального и повторного

проведения теста, тем он надежнее. Стандартная погрешность измерения:

Предполагается, что существует множество заданий, которые могут репрезентировать измеряемое свойство

Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно

эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщепление

его на эквивалентные равные части.

другом. Корреляция задания с истинным показателем:

Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности

теста всегда приблизительна.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между

заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно

быстро. Стандартная надежность 0,02 соответствует тесту длиной в 10 заданий, а при 30 заданиях она равна 0,007.

Оценка стандартной надежности:

Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха:

Для определения надежности методом расщепления используется формула Спирмена—Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что

результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов.

где xi — результат выполнения i-го задания, а — весовой коэффициент ответа, с — произвольная константа.

Несмотря на то, что проблеме валидности в классической теории теста уделяется много внимания,

теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: валидность теста не

может быть больше его надежности.

Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен.

Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и

чем меньше — другие переменные (в том числе внешние), тем тест валидней и, добавим, надежнее, поскольку

влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.

Но это противоречит классической теории теста, которая основана не на деятельностном подходе к измерению

психических свойств, а на бихевиористской парадигме: стимул—ответ. Если же рассматривать тестирование как

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.

Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных

Каким же образом определяется валидность? Все многочисленные способы до-казательства валидности теста

называются разными ее видами.

1. Очевидная валидность. Тест считается валидным, если у испытуемого скла-дывается впечатление, что он

измеряет то, что должен измерять.

2. Конкретная валидность, или конвергентная—дивергентная валидность. Тест должен хорошо коррелировать с

тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с

тестами, измеряющими заведомо иные свойства.

3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями:

измерение интеллекта в детстве должно пред-сказывать будущие профессиональные успехи.

4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область

5. Конструктная валидность. Предполагает:

а) полное описание измеряемой переменной;

б) выдвижение системы гипотез о связях ее с другими переменными;

в) эмпирическое подтверждение (неопровержение) этих гипотез.

отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:

свойств тех или иных поведенческих признаков;

б) определять меру влияния каждого латентного свойства на результаты тести-рования.

К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности

Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен

градаций использовать не стоит.

Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками

облегчают его практическое применение.

Основные положения классической теории теста кратко (по лекциям Орел):

Классическая теория тестов:

• Наиболее широко используемый анализ заданий

• Легкость обработки данных и интерпретации результатов

• Анализ выполняется на материале всего теста целиком

• Статистика по заданиям применима только к данному, конкретному набору задач

• Мера – выборка заданий из бесконечного их множества, представляющего определенный признак

• Задания понимаются, как эквивалентные друг другу

• Чем больше заданий, тем выше надежность теста

• Все респонденты отвечают на одни и те же задания

• Все респонденты должны выполнить все задания

Показатели задания в CTT

• Дискриминативность задания (дифференцирующая сила задания)

• Надежность задания – изменчивость результатов по заданию

• Валидность задания – связь задания с критерием__

© 2014-2022 — Студопедия.Нет — Информационный студенческий ресурс. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав (0.006)

Классическая теория тестов (TCT) / неврология

Тклассическая теория (TCT) появляется впервые в 20-м веке от работы Спирмена. Это может в некотором роде рассматриваться как начало психометрии. Слово тест является английским словом, принятым Королевской испанской академией (RAE) и относится к тестам, предназначенным для оценки знаний, навыков или функций.

В психологии тесты - это психологические или психотехнические тесты для изучения или оценки функции. так, Психологические тесты - это инструменты, предназначенные для оценки или измерения психологических характеристик субъекта..

Зачем нужны теории тестов??

Испытания представляют собой сложные измерительные приборы, которые, во многих случаях они представляют собой неоценимую помощь в контексте психологической оценки. Чтобы это было так, тест должен соответствовать минимальным психометрическим показателям, и специалист, который его проходит, должен знать протокол администрации и соблюдать его..

С другой стороны, теории тестов говорят нам о том, как мы можем оценить качество теста, а также, во многих случаях, как мы можем отладить инструмент, чтобы свести ошибку к минимуму. В этом смысле, возможно, два наиболее важных понятия в рамках классической теории испытаний - это надежность и достоверность..

Под надежностью понимается последовательность или стабильность измерений при повторении процесса измерения.. В конце мы говорим об утопии, потому что на практике невозможно воспроизвести одни и те же условия в двух разных измерениях. Будет относительно просто воздействовать на внешние переменные, такие как контроль, что есть подобная температура или подобный уровень шума; Однако управление внутренними переменными человека, выполняющего тест, будет более сложным. Подумайте, например, о настроении.

Под валидностью понимается степень, в которой эмпирические данные и теория подтверждают интерпретацию результатов тестов.. (2) В противном случае мы могли бы сказать, что достоверность - это способность измерительного прибора количественно и надлежащим образом количественно оценить функцию, для измерения которой он был разработан..

Таким образом, есть две большие теории, когда речь заходит о создании и анализе тестов. Первое, о чем мы говорим, - это классическая теория испытаний (TCT). Второе - теория отклика на предмет (TRI). Ниже мы представляем ключевые аспекты TCT.


Классическая теория испытаний

Этот подход, как правило, наиболее часто используется при анализе и построении тестов.. Ответы, данные человеком в тесте, сравниваются с помощью статистических или качественных методов. с ответами других людей, которые дополнили тот же тест. Это позволяет классифицировать.

Однако сделать эту классификацию не так просто. Психолог, как и любой другой профессионал, должен убедиться, что инструмент, который он использует, измеряет точно, с небольшой ошибкой. (1)

Таким образом, когда психолог применяет тест к одному или нескольким людям, он / она получает эмпирические оценки, которые этот человек или люди получают в тесте. Тем не менее, это не сообщает нам о степени точности этих баллов: Мы не знаем, соответствуют ли эти эмпирические оценки баллам, которые действительно соответствуют этому человеку в тесте.

Например, может случиться так, что оценки были понижены, потому что в тот день обследуемый не был в порядке. Или даже потому, что физические условия, в которых было разработано применение теста, были не самыми лучшими.

Классическая линейная модель

Как мы уже говорили, именно в начале 20-го века Спирмен предлагает эту классическую теорию испытаний. Исследователь предлагает очень простая модель для множества людей в тестах: классическая линейная модель.

Эта модель состоит из Предположим, что оценка, которую человек получает в тесте, который мы называем его эмпирической оценки,и это обычно обозначается буквой X, состоит из двух компонентов. Первая - это истинная оценка (V), а вторая - ошибка (e).. Последнее может быть связано со многими причинами, которые мы не можем контролировать. Вот почему TCT отвечает за точное определение ошибки измерения.

Это можно выразить следующим образом: X = V + e

Итак, после этого Спирман добавляет три предположения к модели.

Три предположения классической модели

  • Истинная оценка (V) - математическое ожидание эмпирической оценки. Это было бы написано так: V = E (X).
    • Таким образом, истинный балл человека в тесте определяется как тот балл, который был бы получен в среднем, если бы один и тот же тест проходил бесконечно.
    • Значение истинной оценки не зависит от ошибки измерения.
    • Ошибки, допущенные в одном случае, не будут соответствовать ошибкам, совершенным в другом случае.


    Классическая теория тестов проста, она не требует передовых математических знаний, чтобы применить ее на практике, и может применяться в любом контексте. Проблема в том, что результаты, которые он нам дает, всегда будут связаны с населением, в котором тест был проверен. также, во многих случаях минимумы, которые необходимо считать тестами приемлемыми, на самом деле недостаточны.


    Почему статистика полезна в психологии? Читать дальше "

    Читайте также: