Понятие стандартизации теста реферат

Обновлено: 02.07.2024

В статье рассмотрены вопросы стандартизации теста и проверки его качества при помощи инструмента дискриминативности (проверка дифференцирующей способности теста и отдельного задания). Ход проверки теста продемонстрирван на примере.

Ключевые слова

Текст научной работы

Стандартизацией теста называется комплекс взаимосвязанных между собой процедур, позволяющий создать для всех испытуемых равные условия, и подразумевает единообразный подход к процедуре проведения и оценивания результатов выполнения испытуемыми заданий.

Определим перечень рекомендаций по организации и проведению контрольного мероприятия в форме тестирования испытуемых:

Норма теста — это некий условно сформированный уровень, который можно принять за средний, отражающий развитие некоторой, возможно большой, совокупности людей, условно похожих на данного испытуемого по определенному ряду выявленных, в ходе дополнительного исследования, социально-демографических характеристик. В большинстве случаев тестовый показатель индивидуума мы можем выявить на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно будет, определяется в результате тестирования большой выборки испытуемых определённого возраста и пола, с последующим усреднением полученных оценок с их последующим дифференцированием по группам: разделением по возрасту, полу, социальному положению, уровню урбанизации, психофизическим показателям и ряду многих других показателей необходимых в контексте именно данной дифференциации. При этом, данная группа людей будет, называется выборкой стандартизации и станет служить показателем для установления норм. Всякая норма, как правило, со временем может, изменяется коррелируя вместе с естественными или другими взаимосвязанными с ней изменениями, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет. Система подсчета баллов, на основе норм, должна быть предварительно разработана и применена ко всем ответам испытуемых без исключения;

9. Стандартизация теста так же заключается в приведении процедуры оценок к общепринятым в учебной среде нормативам;

10. Тест должен быть обязательно социокультурно адаптирован т.е необходимо соблюдать соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране;

11. Для полного обеспечения единообразия условий проведения теста, разработчик описывает подробные указания по проведению каждого вновь разработанного теста;

13. Тест должен сопровождаться руководством для пользователя, в котором описываются:

Таким образом, если тесты стандартизированы, то мы можем сказать, что возможно провести сравнение показателей, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого.

Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

При разработке теста, безусловно, необходимо стремиться к тому, чтобы его задания как можно точнее могли измерять проверяемое свойство. Например, если в результате проведенного обследования почти все испытуемые получили примерно одинаковые результаты, то это может означать только то, что тест проводит измерения очень грубо и неточно, без особых градаций различающих особенности испытуемых. Чем большее количество градаций результатов можно получить при помощи теста, тем выше будет его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью.

Дискриминативность теста измеряется показателем дельта Фергюсона:

где N — количество испытуемых, n — количество заданий, f_i — частота встречаемости каждого показателя. Наименьшая дискриминативность теста определена при δ = 0, наибольшая при δ = 1.

Рассмотрим простейший пример расчета индекса дискриминативности заданий.

Цель задания: овладение навыком расчета индекса дискриминативности.

Оснащение: микрокалькулятор или компьютер, таблица первичных данных (табл. 1).

Таблица 1. Таблица первичных данных отражающая результаты в баллах у семи испытуемых

Испытуемый	Результат (в баллах)
Испытуемый 1	2
Испытуемый 2	1
Испытуемый 3	0
Испытуемый 4	3
Испытуемый 5	2
Испытуемый 6	1
Испытуемый 7	4

На основании таблицы первичных данных получим таблицу частот встречаемости каждого показателя (табл. 2).

Таблица 2. Таблица частот встречаемости каждого из показателей теста выполненная на основе анализа предложенной в табл.1 таблицы частотных данных

Баллы	0	1	2	3	4
f_i	1	2	2	1	1

Вычислим квадраты частот (табл. 3):

Произведем вычисления показателем дельта Фергюсона, где n=4 (количество заданий), N=7 (количество испытуемых), N 2 =49 (рис. 4).

Дискриминативность или дифференцирующая способность как показатель отражает общую способность созданного исследователем теста отделять испытуемых с высоким общим баллом по тесту от тех, кто получает низкий балл и позволяет проверить качество созданных заданий в тесте.

Для проверки качества отдельных заданий будем использовать метод крайних групп. Данный метод позволяет определить может ли задание дифференцировать учащихся. Задания, на которое одинаково хорошо могут ответить испытуемые, как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью. Таким образом, цель использования на практике данного метода выражается в удалении некачественных заданий.

Для определения дифференцирующей способности задания будем использовать формулу метода крайних групп (рис. 6).

от количества испытуемых, N_nmax — количество испытуемых в группе худших верно выполнивших задание, Nnmax — количество испытуемых в группе лучших верно выполнивших задание.

Рассмотрим простейший пример расчета показателя дифференцирующей способности по методу крайних групп.

Было проведено тестирование в группе из 30 испытуемых. Количество заданий — 10. Полученные результаты приведены в таблице частот встречаемости показателей (табл. 4). Цель исследования: необходимо проверить качество задания № 1.

Таблица 4. Таблица частот встречаемости показателей теста (исходные данные для проведения вычисления)

Баллы	0	1	2	3	4	5	6	7	8	9	10
f_i	2	1	3	2	1	2	4	4	3	5	3

Проведем вычисления основных индексов, которые нам понадобятся в основной формуле. Определим 27% от количества испытуемых для создания крайних групп. Примерно получим 8 испытуемых (округлим результаты). Таким образом, мы возьмем 8 человек набравших малое количеств баллов (в нашем примере 0,1,2,3 балла) — так сформирована слабая группа и 8 человек набравших наибольшее количество баллов (в нашем примере — 9,10 баллов) — так сформируем сильную группу. Теперь проверим, как эти испытуемые отвечали на задание № 1 (табл. 5).

Таблица 5. Результаты выполнения исследуемого задания (задания № 1) испытуемыми из крайних групп (сильная и слабая группа)

Испытуемый	1	2	3	4	4	5	6	7	1	2	3	4	5	6	7	8
Результат	0	1	0	0	0	0	0	0	1	1	1	0	1	1	1	1
Группа	Слабая								Сильная

Приведем данные для подстановки в формулу метода крайних групп:

Подставим данные и получим следующий результат:

На основе полученных данных мы можем сделать вывод: задание №1 в тесте является эффективным, так как показатель находится в диапазоне от 0.3 до 1.

Таким образом, стандартизация теста является целенаправленным процессом позволяющим определить условия для качественного прохождения испытаний теста и сделать тест психологически комфортным при прохождении для испытуемых. Стандартизация теста наиболее важна и в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом важна выработка нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. Интерпретация результатов тестирования будет иметь значимых характер только в том случае если сам тест был создан качественно, одним из показателей данной характеристики может является и дискриминативность как теста в целом так и каждого задания в отдельности.

Список литературы

Цитировать

Стандартизация теста – это процесс унификации, регламентации, приведения к единым нормативам процедуры психодиагностики и тестовых показателей. При применении стандартизации осуществляется сопоставление экспериментальных данных, полученных при помощи методик различной размерности. В результате обработки тестовых показателей получают сырые баллы, которые переводятся в соответствии с законом нормального распределения.

Процедура стандартизации включает в себя три этапа:

Первый этапстандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1. условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2. Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте "10 слов" каждое слово должно предъявляться через определенный интервал времени в секундах.

3. Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4. Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5. Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

6. Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7. Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.

8. Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этапстандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этапстандартизации психологического теста состоит в определении норм выполнения теста.

Стандартные показатели:

2. Производные (показатели, полученные путем математической обработки первичных данных)

· Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения. В качестве функции нормирования обычно выступает Z-показатель(стандартный показатель), который выражает отклонение индивидуального результата Х в единицах, пропрорциональных стандартному отклонению.

· Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.

Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования.

Статистические нормы

Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.

В. Критериальныенормы - диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальныенормы указывают на вероятность появления критериального поведения при данном значении тестового балла.

Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.

Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.

Е. Локальные нормы. Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.

Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.

Эталон единицы силы электрического тока: Эталон – это средство измерения, обеспечивающее воспроизведение и хранение.

Основные направления социальной политики: В Конституции Российской Федерации (ст. 7) характеризуется как.

прикладная психология. основы консультативной психологии

Стандартизация психодиагностических тестов ( реферат , курсовая , диплом , контрольная )

Получение достаточно объективных результатов при проведении психодиагностических процедур во многом зависит от выполнения ряда организационных требований, таких, как точность представления материалов, лимит времени, характеристика подачи инструкции, ее форма, даже интонация и жесты экспериментатора, интерпретация данных. Выделим в связи с этим понятие стандартизации, которое рассматривается в двух планах. Первый определяется постоянством основных экспериментальных процедур. Второй полностью относится к понятиям нормы. Без понятия нормы тестовые оценки вообще не могут быть интерпретированы. Тесты в принципе не имеют определенных стандартов. Поэтому индивидуальная оценка тестового испытания может быть получена только путем сравнения с оценками других испытуемых. Основная статистическая концепция, с помощью которой в большинстве диагностических методик решается проблема нормы, базируется на кривой распределения К. Гаусса — кривой нормального распределения. Она получается в некоторых случаях в результате обследований больших популяций.

Стандартизация теста проходит два этапа. Первый относится ко времени конструирования теста и непосредственно связан с характеристикой наполняющих тест задач. Исторически этот этап начинается с работ А. Вине, впервые расположившего задачи в порядке возрастающей трудности. Процедура определения трудности задач, хотя и носила эмпирический характер, позволяла тем не менее повысить объективность испытаний. Принцип определения трудности задач в основном сохранил свою значимость и в настоящее время. Классификация и выбор задач для включения в тест всегда связаны с необходимостью соблюдать определенную пропорцию в степени трудности применяемых задач, так как трудность теста непосредственно зависит от трудности вопросов, которые в него входят. Поэтому окончательная проверка трудности самого теста обеспечивается испытанием его на репрезентативной выборке, которая, как правило, имеет достаточно большой количественный объем — до 2—4 тыс. испытуемых. Эта процедура позволяет расположить оценки, получаемые отдельными индивидами, по их уровню так, чтобы имелась группировка индивидуальных оценок около центра шкалы распределения и демонстрировалось постепенное ее снижение в обе стороны по мере приближения к крайним точкам. Практически кривая нормального распределения вполне удовлетворительно описывает результаты испытаний подобного рода. Однако это имеет место только в конце процесса конструирования теста, так как на начальных его этапах, как правило, наблюдаются различного рода отклонения. Кривая, например, может иметь асимметрию в том случае, если тест наполнен очень легкими или, наоборот, очень трудными задачами. Регулировка структуры и содержания теста продолжается до тех пор, пока распределение оценок испытуемых не приблизится к нормальному. Фактически это достигается подбором испытуемых с разным уровнем развития исследуемой функции. Тесты умышленно конструируются и специально модифицируются таким образом, чтобы получить среднюю оценку правильно выполненных заданий, равную примерно 50%. Только таким путем можно достигнуть максимальной дифференцировки индивидуальных различий при употреблении того или иного теста. Пятидесяти процентный уровень правильно решаемых задач является, таким образом, максимально удобным для получения нормального распределения. В. М. Мельников выделяет три основных вида преобразования тестовых результатов:

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

1. условия тестирования (помещение, освещение и др. внешние факторы).

2. Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.).

3. Наличие стандартного стимульного материала. Временные ограничения выполнения данного теста. Стандартный бланк для выполнения, данного теста. Использование стандартного бланка облегчает процедуру обработки.

4. Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

6. Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации.

7. Второй этапстандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и стандартной предварительной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста

8. Третий этапстандартизации психологического теста состоит в определении норм выполнения теста [2].

Нормы разрабатываются для различных возрастов, профессий, полов и др.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений. Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1. выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест,

2. выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д.,

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы.

Производные показатели получаются путем математической обработки первичных показателей.

Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение

Характеристики психодиагностической методики

Валидность

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.

2. Валидность по объемуотражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3. Оценочная валидностьвыражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4. Внешняя валидностьозначает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.

Надежность

О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:

1. При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2. Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3. При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

Ретестовый метод– повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм– повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А ИНТЕРВАЛ ТЕСТ А'

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.

Требования к построению параллельных форм:

· параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщеплениясостоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Со стороны взаимодействия испытуемого с тестом, причины недостоверности результатов могут быть следующие:

1. у респондента может не быть четкого представления о том, о чем его спрашивают;

2. на респондента влияет фактор социальной желательности, то есть респондент пытается представить себя в наивыгодном свете, отвечает, ориентируясь на общепринятые нормы. Во избежании влияния такого фактора в опросники вводятся шкалы лжи;

3. респондент не способен оценить те черты, о которых его спрашивают;

© 2014-2022 — Студопедия.Нет — Информационный студенческий ресурс. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав (0.006)

Читайте также: