Тестовый контроль в образовании - Надежда Ефремова
Шрифт:
Интервал:
Закладка:
• тесты по содержанию и структуре – гомогенные, гетерогенные, интегративные, адаптивные и др.;
• тесты по целевой направленности – критериально–ориентированные, нормативно–ориентированные, содержательно–ориентированные (определение уровня исходных знаний, дифференцирующие по качеству подготовки, разделяющие на успевающих и неуспевающих и т.д.);
• тесты по задачам тестирования – тематические, итоговые, обучающие, развивающие, контролирующие остаточные знания;
• по средствам предъявления – тестовые тетради; тесты на бумажных носителях с заполнением специальных бланков ответов; компьютерные адаптивные тесты с предъявлением последовательно каждого задания на экране монитора и фиксацией результата программными методами.
Для возможно более точного оценивания большого числа тестируемых (при массовых тестированиях), сопоставимости и достаточной дифференцируемости результатов тестирования в качестве системообразующего фактора может выступать время работы над тестом, от которого существенно зависит качество результатов. Оптимальное время тестирования определяется эмпирически (исходя из удобства тестирования и естественных возможностей непрерывной работы тестируемых) и указывается для каждого теста. При этом трудность теста определяется суммарной трудностью всех его заданий. Требования современного тестирования предусматривают, что задания не могут быть все одинаковой трудности, так как по определению педагогического теста они должны быть (в гомогенном тесте) нарастающей трудности. Испытуемые среднего уровня подготовленности должны ответить верно примерно на половину заданий теста, на задания самого высокого уровня трудности правильно должны ответить только самые подготовленные.
Долгое время в тестологии мерой трудности каждого задания была доля правильных ответов рj на j–e задание. В новых моделях вместе с долей правильных ответов pj составной частью новой единицы измерения стала величина qj = 1 – pj – доля неправильных ответов на j – е задание.
Мерой уровня трудности заданий в современной тестологии является логит трудности задания, определяемый натуральным логарифмом отношения доли невыполненных заданий к доле правильных ответов на данное задание ln qj/рj. Соответственно, введена и логарифмическая оценка логит уровня подготовленности i – го учащегося, определяемый как ln pj /qj [107]. Сопоставление логарифмических оценок уровня знаний каждого испытуемого с уровнем трудности каждого задания посредством их вычитания позволяет создавать программно–инструментальные средства индивидуализации обучения и контроля, осуществить переход к методам адаптивного тестирования.
Одной из важнейших составляющих современного теста являются его тестологические характеристики. Тестологические характеристики – это измерительные качества теста, которые появляются только в процессе использования его на апробационных выборках тестируемых. Создание так называемого качественного теста, обеспеченного соответствующими тестологическими характеристиками, – процесс сложный и длительный, связанный с выбором математической модели конструирования теста, наполнением ее заданиями, проведением апробационного тестирования, параметризацией, последовательным совершенствованием для достижения соответствия заданным целям и тестологическим свойствам методами последовательных итераций.
Важной характеристикой тестирования является различие тестовых баллов у разных испытуемых – вариация тестовых баллов. Отсутствие вариации свидетельствует либо о том, что все обладают одинаковыми знаниями, либо о несостоятельности теста в дифференцировке знаний испытуемых. Так, при традиционных экзаменах пятибалльная шкала снижает вариацию даже там, где она есть (например, на вступительных испытаниях сотни абитуриентов получают тройки, хотя качество знаний таких абитуриентов может сильно отличаться), в то время как тесты ее заметно повышают (на 100–балльной шкале вариация результатов достаточно высока). Удобной мерой вариации результатов тестирования является дисперсия. Это особенно важно для организации адаптивного компьютерного тестирования. Сопоставление в ло–гитах (на единой шкале переменной) уровня знаний испытуемого и трудности задания позволяет ЭВМ из любого множества заданий для любого числа испытуемых подбирать индивидуальные задания и соответственно оценивать результаты ответов. Эффективность этого метода оказала огромное влияние на развитие зарубежной и отечественной педагогической теории и практики.
Согласно теории педагогических измерений тесты могут быть качественными и давать достоверные результаты только в том случае, если они предварительно апробированы на типичных выборках испытуемых и показывают соответствие заложенным при разработке взаимосвязанным свойствам надежности и ва–лидности. В трудах теоретиков–тестологов валидность трактуется как многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней [93—95]. Валидность теста можно определить как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.
Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:
• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;
• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;
• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).
Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).
Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, «валидность – ахиллесова пята тестирования» [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:
• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;
• прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].