Тестовый контроль в образовании - Надежда Ефремова
Шрифт:
Интервал:
Закладка:
Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.
К числу направлений совершенствования КИМ можно отнести:
• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;
• проведение исследований по стабилизации критериального балла;
• разработку методики анализа устойчивости шкалы;
• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;
• усиление связи шкалирования и оценивания с содержанием образования;
• выделение уровней учебных достижений для оценивания на пятибалльной шкале.
Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:
• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;
• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;
• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.
Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.
Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].
Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:
• сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число S ;
• расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.
Методика построения компромиссных оценок основана на условиях:
• нет никакой априорной информации об экспертах;
• невозможно провести абсолютную экспертизу качества работы каждого эксперта;
• вся информация представляет собой набор работ, оцененных двумя, редко тремя экспертами.
В этом случае определение влияния экспертов на оценку проводится на основе анализа всевозможных парных сравнений с учетом следующих принципов:
• если эксперт серьезно завышает оценку в сравнении с другими экспертами либо серьезно занижает, то такая оценка учитывается меньше;
• если эксперт проявляет несогласованность с действиями других экспертов в достаточно большом числе работ, занижает оценку в сравнении с более строгими (менее лояльными) экспертами или завышает в сравнении с более мягкими (более лояльными), то его оценки также учитываются меньше;
• «веса» экспертов имеют смысл только внутри оцениваемой выборки.
Для определения «веса» экспертов строится квадратная матрица, элементы которой определяются по формуле:
где si, sj – сумма баллов по всем заданиям части «С» по всем работам, совместно проверенным i-м и j – м экспертами; C max – максимально возможная суммарная оценка за эти задания.
Коэффициент лояльности отражает сравнительную с другими экспертами лояльность i–го эксперта. Построчные суммы этой матрицы делятся на общее число работ, проверенных каждым экспертом, тогда формула вычисления коэффициента лояльности имеет вид
где Ni – число работ, проверенных i-м экспертом.
Аналогично для каждого эксперта строится коэффициент нестабильности путем сложения модулей разностей баллов за все задания, в которых он превысил оценку эксперта большей лояльности, чем он сам, и модулей разностей баллов за все задания, в которых он занизил оценку в сравнении с экспертами более низкой лояльности, чем он сам. Эта сумма делится на число проверенных им работ. Коэффициент нестабильности характеризует несогласованность данного эксперта с мнениями остальных экспертов. Формула для его вычисления выглядит следующим образом:
где сумма берется по всем j, для которых либо li< lj и rij>0, либо li> lj и rji< 0.
Оба эксперта, проверявших одну и ту же работу, всегда находятся в одной связной компоненте, поэтому их параметры можно между собой сравнивать, что позволяет получать компромиссную оценку для данной работы:
где с – окончательная оценка за задание; w1 w2 – «веса» экспертов; с1, с2 – оценки, изначально выставленные экспертами.
Исходя из этого построение компромиссной экспертной оценки следует из принципов:
• компромиссная оценка не должна быть ниже наименьшей оценки экспертов и выше наибольшей, она должна принадлежать множеству допустимых значений оценок большинства экспертов;
• оценки экспертов, дававших стабильно завышенные или заниженные результаты либо показывавших очень нестабильные результаты, учитываются тем меньше, чем в большей мере наблюдаются данные недостатки.
Окончательной считается оценка, построенная как взвешенная сумма оценок двух экспертов. В большинстве случаев компромиссная оценка вычисляется путем арифметического усреднения и последующего округления.
Если же в оценках экспертов имеют место значительные расхождения, то для проверки назначается третий эксперт. Независимая оценка третьего эксперта за решения всех заданий в этом случае считается окончательной, если она не выходит за границы интервала баллов, определенных первыми двумя экспертами.
При шкалировании результатов единого государственного экзамена учитываются только окончательные оценки.
Вопросы и задания
1. Какие виды тестов используются в образовании?
2. Чем принципиально отличаются классические тесты от контрольных измерительных материалов современного тестирования?
3. В чем особенность конструирования тестов по методологии IRT?
4. Перечислите основные статистические характеристики тестовых заданий.
5. Какую информацию дает характеристическая кривая о качестве тестового задания?
6. Что понимается под эффективностью теста?
7. Перечислите основные принципы выделения контролируемых дидактических единиц для создания теста.
8. Перечислите основные этапы конструирования теста.
9. Какие формы тестовых заданий используются в ЕГЭ?
10. Какие виды шкал используются в образовании при контроле?
11. Чем различаются первичные и тестовые баллы?
Глава 4
ТЕОРЕТИЧЕСКИЕ ОСНОВЫ КВАЛИМЕТРИЧЕСКОГО МОНИТОРИНГА КАЧЕСТВА ОБУЧЕНИЯ
Предмет математики настолько серьезен,
что полезно не упускать случая сделать его
немного занимательным.
Блез Паскаль4.1. Виды мониторинга в образовании
Необходимость адаптации образования к потребностям современного общества обусловливает поиск научно обоснованных оценок качества образования и наблюдения за процессами его развития. Важнейшим условием повышения качества общего образования являются систематический контроль и анализ объективных данных о качестве обучения и подготовленности обучающихся. Процесс управления качеством образования может быть эффективным только при наличии постоянной обратной связи, обеспечивающей субъектов образования надежной валидной информацией о качестве всей системы образования и ее составляющих. Однако такая связь в практике образования пока еще организована слабо. Только в последнее время исследуются отдельные компоненты: мониторинга: диагностика, моделирование, прогнозирование, компьютерная поддержка.