Тестовый контроль в образовании - Надежда Ефремова
Шрифт:
Интервал:
Закладка:
• все испытуемые получают одинаковые по содержанию и трудности задания.
При этом подготовка к тестированию также предусматривает ряд требований:
• организацию контроля согласно разработанной инструкции;
• предварительную подготовку испытуемых к тестированию;
• создание соответствующих условий для проведения тестирования (место, техника, приборы, программно–методические материалы);
• создание благоприятных психологических условий;
• представление теста в эффективной форме;
• оптимизацию системы подсчета баллов, методов их представления и интерпретации результатов.
Кроме того, следует учитывать, что точность тестовых оценок возрастает по мере повышения однородности (гомогенности) содержания теста, когда содержание всех заданий нацелено на измерение одной и той же переменной.
В табл. 3 приведен один из вариантов матрицы тестирования, которая позволяет не только зафиксировать общее количество баллов, полученное каждым тестируемым, но и провести качественную оценку содержания знаний, усвоенных испытуемыми.
Таблица 3
Матрица результатов тестирования
Из практики применения тестов следует, что чем более массовый характер имеет тестирование, тем большее число задач оно решает, тем более ответственны процедура и результат тестирования, больше вероятность получения ошибочных выводов при использовании некачественных контрольно–оценочных материалов. Именно поэтому для массовых обследований необходимо разрабатывать и использовать качественные педагогические измерители, применять современные технологии обработки, оценивания, анализа и интерпретации результатов тестирования. Это правило создает границы применимости различных по качеству текстов: авторских претестовых заданий для текущего контроля; стандартизированных тестов для массовых проверок учебных достижений школьников; итоговой аттестации выпускников или отбора абитуриентов.
Применение авторских тестов на локальном уровне возможно, но их тиражирование может иметь следствием получение недостоверных результатов на больших выборках испытуемых. Сегодня на уровне регионов и территорий для аттестации и определения качества образовательных учреждений, как правило, используются авторские контрольно–оценочные материалы, не позволяющие определять качество и, тем более, сравнивать показатели разных образовательных систем между собой.
3.5. Методы шкалирования результатов тестирования
Развитие и внедрение современных тестовых методов и технологий остро ставит вопрос необходимости совершенствования техники обработки результатов тестового контроля. Проблема надежности шкалирования результатов тестирования в педагогических измерениях так же важна, как подготовка качественного теста или техника тестирования.
В самом широком смысле измерение сводится в конечном счете к припис^гванию чисел измеряемым объектам или событиям согласно определенным правилам. Правила устанавливают соответствие между некоторыми свойствами объектов и чисел, позволяющее сравнивать между собой эти объекты по состоянию измеряемого свойства. В зависимости от целей измерения и сопоставления тех или иных объектов выбираются различные правила, отображающие различные свойства объектов. Переменные различаются тем, насколько хорошо они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает их шкала. Всякий раз при измерениях нужного свойства выбирают соответствующую измерительную шкалу. Шкала – это средство фиксации результатов измерения определенных свойств объектов путем упорядочения их в определенную числовую систему, в которой отношение между отдельными результатами выражено в соответствующих числах. Очевидно, в каждом измерении всегда присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение.
В образовательной практике выделяют четыре основных вида шкал, получивших наиболее широкое распространение: номинальная, порядковая (ординальная), интервальная, относительная. Согласно С.С. Стивенсу, они получили следующие названия: шкала наименований, шкала порядка (ранговая шкала), интервальная шкала и шкала отношений [172]. Измерения на первых двух шкалах считаются качественными, а на двух других – количественными. Шкалы качественных измерений называют дискретными, а количественных – непрерывными. В каждой из этих шкал определены свойства чисел, приписываемых объектам. По этим признакам шкалы перечислены в таком порядке, что в каждой последующей, кроме свойств предыдущей шкалы, добавляются и новые. Поэтому чем больше порядок шкалы, тем больше арифметических действий разрешается проводить над числами, приписанными объектам на этих шкалах.
Номинальная, или шкала наименований, самая простая, например: зачет – незачет. Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам, при этом определить количество или упорядочить эти классы невозможно. Типичные примеры номинальных переменных – пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Шкала наименований устанавливает критерии, позволяющие распределить измеряемые объекты по состоянию измеряемого свойства на несколько классов (или категорий). При этом каждый объект должен попасть в определенный класс, в котором объектам приписывается одно и то же число. Объекты одного класса считаются одинаковыми по состоянию измеряемого свойства. Примером является дихотомическая шкала: выполнившие задание получают число 1, а невыполнившие – 0. Методы обработки таких результатов оценивания знаний называют статистикой качественных признаков. Данные, соответствующие номинальным шкалам, составляют наблюдаемые значения частот появления каждой из разновидностей изучаемой переменной. Эти результаты, как правило, используются при построении матриц результатов педагогических измерений.
Порядковые шкалы (например, пятибалльная) – это шкалы, результаты измерений по которым невозможно сравнивать между собой. Порядковые переменные позволяют только ранжировать (упорядочить) объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать на сколько больше или на сколько меньше один результат отличается от другого. Само расположение шкал – номинальная, порядковая, интервальная – является примером порядковой шкалы. В пределах порядковых шкал можно только упорядочить объекты в порядке возрастания или убывания оценок измеряемых параметров. На такой шкале оцениваются только качественные признаки объектов, например оценка А > В, или медианный объект, который по измеряемому свойству переходит за 50%. Число, приписываемое такому объекту, называется медианой и принимается за меру центральной тенденции грутты объектов [121].
Шкала более высокого уровня называется интервальной (или шкалой равных единиц). Интервальные переменные позволяют не только упорядочить объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Она позволяет сказать, что температура 40 градусов выше, чем температура 30 градусов, и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры с 30 до 40 градусов. Интервальная шкала – количественная, можно задать разность оценок (Х1 – Х2 ), абсолютное значение которой трактуется как расстояние между двумя элементами множества, выраженное в определенных единицах. Для такой шкалы характерно отсутствие начала отсчета, равного нулю, но допустимы различные арифметические действия над числами. Эта шкала задает взаимное положение измеряемых объектов относительно друг друга, но не показывает расположение объектов относительно начала координат. Так, например, разности баллов 48 – 45 и 5 – 2 одинаковы, а смысл их разности может быть различным. К результатам измерений на такой шкале применимы почти все статистические операции.
Интервальная метрическая, или нормальная, – это такая шкала, у которой задано начало отсчета. На такой шкале можно определить не только метрики (единицы измерения), как на интервальной шкале, но и понятие нормы (местоположения от начала координат). В современной теории педагогических измерений перевод «сырых» баллов («сырые» баллы дают оценки на порядковой шкале обычно в числе правильно выполненных заданий) производится на интервальную шкалу, учитывающую степень трудности выполненных заданий. Для визуализации такой шкалы можно представить уровни трудности тестовых заданий βj и профили ответов, соответствующих подготовленности θi (рис. 14).