Тестовый контроль в образовании - Надежда Ефремова
Шрифт:
Интервал:
Закладка:
Достаточно наглядно можно представлять на гистограмме (рис. 24) динамику изменений отметок по разным предметам по годам, территориям или образовательным учреждениям.
Медианный анализ при помощи гистограмм (рис. 25) позволяет наиболее корректно сравнивать результаты, давая представление о качестве подготовки большого числа различных выборок испытуемых.
Рис. 23. Динамика участия вузов и ссузов в ЕГЭ по годам
Рис. 24. Сравнение отметок «4» и «5» по ЕГЭ 2003—2004 гг. в регионе
Рис. 25. Значения медиан первичных баллов по математике разных районов
Медианой называют среднее значение отранжированного ряда результатов (тестовых баллов), которое делит весь ряд на две равные части. Обучающиеся одной половины имеют баллы выше медианы, условно назовем ее «сильной», а учащиеся второй половины, «слабой», имеют баллы ниже медианы. Расчет медианы me при четном количестве учащихся (N = 2k) проводится по формуле
а при нечетном (N = 2k + 1) медиана me = Хк+1 , где N – общее число объектов наблюдения, а k – их середина (половина). Медианы используют как дополнительную информацию к гистограммам распределения тестовых баллов, так как именно они позволяют в компактной форме наглядно представить и характеризовать плотность распределения баллов сильной и слабой половины учащихся.
Линейные графики. Линейные графики достаточно хорошо иллюстрируют рейтинги различных объектов наблюдения, они удобны для оценивания рейтинга общеобразовательных учреждений разных типов, рейтинга территорий, классов в школе, выпускников, когда требуется установить их последовательность по анализируемому свойству. На линейных графиках можно проводить сравнения большого числа объектов однотипного ряда (одна зависимость), по разным уровням обобщения данных или временным интервалам.
Такие сравнения, проведенные за несколько лет, позволяют более объективно выявлять закономерности развития образовательных систем. Для динамического мониторинга рейтинг однотипных объектов (например, регионов) за несколько лет можно представить совокупностью линейных зависимостей на одном графике (рис. 26). Как видно из графика, по результатам централизованного тестирования за ряд последних лет наблюдается стабильность значений средних тестовых баллов по регионам (указаны условные коды). В данном случае для анализа выбраны средние тестовые баллы региона, рассчитанные по сумме всех предметов и всех участников тестирования, в результате анализируются «средние тестовые баллы региона».
Рис. 26. Рейтинг регионов по результатам централизованного тестирования (средние тестовые баллы всех участников региона по сумме всех предметов
Это позволяет показать прогностические возможности такого подхода к оценке качества обучения в разных территориях страны, а уж затем разбираться в причинах успехов или неудач. Выбор регионов (табл. 8) сделан из формируемого ФЦТ рейтинга пошаговым смещением от самого высокого до самого низкого значения рейтинга с интервалом в 10 позиций [192].
Таблица 8
Динамический анализ показывает, что устойчиво обнаруживается территориальный фактор (сохранение рейтинга регионов). По всей видимости, это связанно как с особенностями систем управления, так и другими специфическими условиями и причинами для данной территории. Использование Центром тестирования в 1999 и 2000 гг. однопараметрической математической модели Г. Раша для создания КИМов давало более высокий тестовый балл и большие расхождения баллов по регионам. В какой–то степени это также могло быть связано и с малым числом участников тестирования в первые годы и неподготовленностью школьников к такого рода оценочным процедурам (нерепрезентативностью выборки). Общее снижение тестового балла в 2001—2004 гг. обусловлено не резким понижением успеваемости, а использованием КИМов и пересчетом баллов по двухпараметрической модели Бирнбаума.
Видно, что за 2001 и 2004 гг. рейтинг регионов, рассчитанный по средним тестовым баллам совокупности всех предметов и тес–тируемьгх, практически не изменялся. Устойчивость рейтинга характерна практически для всех регионов, выбранных для анализа, что свидетельствует о правомерности сравнительного анализа. Наибольшая разность между крайними значениями средних тестовых баллов составила: 11 – в 1999 г.; 17 – в 2000 г.; 15 – в 2001 г.; 13 – в 2002 г.; 12 – в 2003 г.; 9 – в 2004 г. Снижение этой разности обусловлено как совершенствованием технологии тестового контроля, так и подготовкой школьников к независимой аттестации.
Корректность педагогического анализа в данном случае требует не давать однозначную оценку качеству учебных достижений выпускников в этих регионах по многим причинам: разное число участников тестирования, а следовательно, несопоставимость условий контроля; нерепрезентативность выборки в условиях добровольности участия в тестировании; несовершенство тестовых материалов, процедур тестирования и методик шкалирования и др. Кроме того, следует отметить, что для эффективного функционирования контрольно–оценочной системы в учебных заведениях пока еще нет необходимого методического и технологического обеспечения, ощущается нехватка инструментальных средств контроля и анализа его результатов, контрольно–обучающих программ, математико–статистических пакетов для обработки результатов контроля и компьютерных классов с сетевым оборудованием, разная готовность педагогов к работе с тестами. Пока больше можно говорить о возможностях подобного анализа и перспективности его применения после преодоления целого ряда трудностей, связанных с развитием массового тестирования и введением единого государственного экзамена. И все же некоторые выводы можно сделать уже сейчас.
Во–первых, разница в качестве подготовки по регионам существует, и ее можно измерять, так как тестирование проводилось в одинаковых условиях (время, КИМы, длительность работы, автоматизированная проверка, методика шкалирования), а число участников в каждом регионе было достаточным, чтобы зафиксировать общие тенденции изменений за последние годы.
Во–вторых, интервал средних тестовых баллов между самым успешным и самым слабым регионом не является критичным, особенно в 2004 г. При всех возможных различиях обучения в разных регионах базовая составляющая в значительной степени обеспечивается на достаточном уровне в каждом из них.
В–третьих, детальный предметный анализ показывает, что в одних регионах сильнее проявляется подготовка по гуманитарным дисциплинам, а в других – по естественно–научному циклу. Средние тестовые баллы по России в целом задают статистические нормы для критериев успешности функционирования различных образовательных систем.
В–четвертых, в большинстве случаев нет большого разрыва между достижениями городских и сельских школ. Очевидно, что традиционные формы контроля ранее не позволяли обнаружить совокупность этих факторов.
О качестве регионального образования по тому или иному предмету в том или ином регионе можно судить по плотности распределения учащихся, набравших соответствующие тестовые баллы, в сравнении с таковым для всех выпускников России (рис. 27).
При этом следует учитывать, что надежность и точность педагогических измерений выше там, где больше плотность участников, а следовательно, в центральной части распределения. В интервалах баллов от 0 до 20 и от 75 до 100 могут быть значительные погрешности из–за малого числа выпускников, попадающих в эти интервалы. Однако достаточно хорошо видно, что результаты анализируемой выборки коррелируют с данными по России.
На рис. 28 для показа возможностей линейных графиков приведен рейтинг отдельных территорий региона ЕГЭ по математике по средним значениям тестовых баллов, которые для данных объектов находятся в диапазоне от 38 до 53, а размах баллов составляет 15, почти на треть баллы слабой территории ниже, чем сильной.
Рис. 27. Плотность распределения учащихся, набравших соответствующий тестовый балл по математике: – о– Россия; —О– регион
Рис. 28. Математика, ЕГЭ
Сравнительный анализ результатов массового тестирования позволяет выделять те или иные факторы, имеющие место в образовательной системе. К примеру, некоторые из факторов оказывают одинаковое влияние на результат всех участников тестирования (образовательная политика в стране, стандарты, содержание КИМов и др.), а часть из них могут носить случайный характер и оказывать разное воздействие на индивидуальный результат испытуемых. Cлучайные факторы оказывают сильное влияние на общий результат малых выборок тестируемых (рис. 29, а; лицей – 24 человека; школа – 43 человека). В силу рандомизации, при статистически достаточном числе испытуемых влияние случайных факторов на общий результат выборки исключается (рис. 29, б; Россия – более 600 тыс. человек; регион – около 40 тыс. человек; город – около 10 тыс. человек).