Тестовый контроль в образовании - Надежда Ефремова
Шрифт:
Интервал:
Закладка:
где Ij (θ) – информационная функция; θ – уровень знаний испытуемого, латентная переменная; Pj(θ) – вероятность правильного ответа на задание j; Q. (θ) = 1—Pj(θ), Q – вероятность неправильного ответа на задание j; n – число заданий в тесте;
Информационная функция задает интервал, в котором работает данное задание, чем меньше этот интервал и круче характеристическая кривая, тем выше информативность и дифференцирующая способность такого задания. Это утверждение привносит дополнительные возможности в отбор заданий при формировании теста, позволяя варьировать диапазон заданий на шкале логитов. Введение информационной функции позволяет оценить точность педагогических измерений. Информативность задания обратно пропорциональна ошибке измерения, следовательно, речь может идти о дифференцированной оценке точности, обеспечиваемой j – м заданием теста данного уровня подготовленности θi.Каждому уровню подготовленности в соответствие ставится количество получаемой при измерении информации. Отсюда следует, что наиболее информативно измерение подготовленности i-го испытуемого будет j – м тестовым заданием с уровнем трудности в точке перегиба при равенстве θi=βj. Таким образом, чем ближе значение разности (θi−βj) к нулю, тем эффективнее подобрано задание и меньше стандартная ошибка измерения уровня подготовленности испытуемого.
Для получения качественного теста необходима его апробация на предмет получения статистических характеристик, выявления трудности заданий, их дифференцирующей способности, характеристик теста в целом. Поэтому требуется проведение апроба–ционных тестирований, проверки трудности теста на выборках генеральной совокупности для выявления устойчивости показателей. После проведения апробационного тестирования выполняется математико–статистическая обработка результатов испытания, которая состоит из нескольких этапов.
Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения i-м испытуемым j – го задания обозначим Xij. Она может принимать значения 1 или 0, при этом i = 1, 2, ..., N,, где N – число учащихся или студентов; а j = 1, 2, ..., n, где n – количество заданий в тесте. Из значений Xij составляют матрицу эмпирических данных. Строки матрицы состоят из нулей и единиц, соответствующих ответам разных испытуемых, по столбцам располагаются профили ответов на каждое задание, т.е. столбцов должно быть столько, сколько заданий в тесте – n, а строк – сколько испытуемых – N. Матрицу данных тестирования (столбцы – число правильных ответов на каждое задание теста Rj, строки – правильные ответы тестируемых) упорядочивают, располагая Rj в порядке убывания результата. Строки матрицы меняют так, чтобы верхняя соответствовала обучаемому с минимальным индивидуальным тестовым баллом Xi.
По такой упорядоченной матрице рассчитываются доли правильных рi и неправильных qi ответов испытуемых:
pi = X i /n, qi = 1 – Pi , где (i= 1, 2, ..., N).
Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:
Pj = Rj /N и qj = 1 – Pj , где (j= 1, 2, ..., n).
Сначала рассчитывается первичный балл каждого тестируемого:
являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:
Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания Rj удобен до тех пор, пока число испытуемых N в разных группах остается неизменным. Если в группах число испытуемых меняется, то необходимо пользоваться нормированным статистическим показателем трудности Pj , он не зависит от N и характеризует долю правильных ответов:
Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.
Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.
После этого определяются значения дифференцирующей способности αj, как это было указано ранее. Найденные для всех заданий значения αj позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра θ. В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.
Аналогично проводится определение начального значения латентного параметра трудности задания βj по значению Rj. Затем вычисляются стандартные ошибки измерений θ и β, строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].
Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.
Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия
прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов i – го испытуемого; N – число испытуемых).
Рис. 9. Динамика информационной функции теста J(θ) – информационная функция; θ – уровень знаний
Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.
Для обработки статистических данных по результатам применения теста необходимо использовать ту же модель, что и при конструировании теста. Благодаря свойству инвариантности устойчивые оценки параметров тестовых заданий в IRT получаются на любой репрезентативной выборке (порядка 200 человек), даже если она существенно отличается от планируемой. На В –оси латентной переменной – информационная функция в пределах от–3 до +3 логитов соответствует диапазону оценки уровня знаний, определяемого нормативно–ориентированными тестами.
Следует обратить внимание на то, что при одной и той же спецификации заполнение области кривой под целевой информационной функцией может быть получено разными способами за счет использования разных по трудности тестовых заданий. В разрабатываемом тесте задания варьируются по трудности и дифференцирующей способности на основе одной и той же спецификации теста. Это особенно следует учитывать при создании параллельных тестов, когда крайне важно обеспечить равную трудность различных вариантов в соответствующих точках на оси переменной измерения, при переработках теста, исследованиях эффективности различных форм тестовых заданий, сопоставлении методов отбора заданий из банка и в других случаях. Поэтому необходимы сопоставление эффективности различных тестов и выбор оптимального набора заданий, обеспечивающих планируемые свойства теста.
Надежность теста снижается при подборе преимущественно легких или трудных заданий, кроме того, тест не отражает содержание учебной дисциплины. Наибольшей могла бы быть надежность теста, составленного из средних по трудности заданий, однако тогда снижаются содержательная валидность и дифференцирующая способность теста. В свою очередь, стремление поднять валидность может привести к снижению надежности. В теории конструирования тестов этот случай достаточно подробно описан Ф. Лордом (F.M. Lord) [242].