Информатика — относительно новый GCSE, который впервые был присужден в 2012 году.
С тех пор он претерпел ряд изменений с точки зрения содержания и структуры оценки квалификации, а также с точки зрения размера и состава группы, получающей квалификацию.
В связи с этими изменениями и после представлений заинтересованных сторон Ofqual провела значительную программу исследований для рассмотрения стандартов оценивания в GCSE по информатике с течением времени.
Обзор стандартов по информатике GCSE
Опубликовано 18 июля 2024 г.
Применимо к Англии
Автор
- Тим Стрэттон
С благодарностью
- Шарлотта Дрейпер
- Рейчел Тейлор
- Ян Стокфорд
Управляющее резюме
Информатика — относительно новый GCSE, который впервые был присужден в 2012 году. С тех пор он претерпел ряд изменений с точки зрения содержания и структуры оценки квалификации, а также с точки зрения размера и состава группы, получающей квалификацию. В связи с этими изменениями и после представлений заинтересованных сторон Ofqual провела значительную программу исследований для рассмотрения стандартов оценивания в GCSE по информатике с течением времени.
GCSE computer science представляет собой необычный сценарий из-за ряда изменений, произошедших за короткий срок существования квалификации. К ним относятся изменения в структуре оценки, реформа, пандемия COVID-19 и сообщалось о высоком уровне недобросовестной практики в спецификациях до реформы. Заявки существенно выросли с тех пор, как их предлагали лишь небольшое количество школ и колледжей, до гораздо более широко доступных с момента включения в школьную оценку успеваемости Ebacc и прекращения использования GCSE Information and Communication Technology (ICT). Существенные изменения в дизайне квалификации, контексте, в котором она действует, и характере ее вступления могут создать проблемы для эффективного поддержания стандартов с течением времени.
В этом отчете содержатся сведения о программе исследований, которые Ofqual провела для рассмотрения стандартов оценивания с течением времени в области компьютерных наук GCSE. Существует два основных направления работы: первое направление использовало ряд методологий и анализов для рассмотрения того, есть ли какие-либо доказательства того, что стандарты не поддерживались последовательно с течением времени, а второе было направлено на рассмотрение возможного влияния любых изменений на текущий стандарт оценивания путем рассмотрения примеров студенческих работ с лета 2023 года.
В рамках направления 1 этой программы работы использовался ряд аналитических подходов, как оценочных, так и статистических, для оценки стандарта оценки GCSE по информатике с течением времени. Эти анализы показали, что произошло небольшое снижение вероятности получения учащимися по крайней мере оценки 7 (оценка A до реформы) или оценки 4 (оценка C до реформы) в период с 2014 по 2019 год. Не наблюдается последовательного эффекта в классе 1 (оценка G до реформы). С помощью этих анализов мы стремились исключить возможные обоснованные причины изменения результатов, такие как изменение способностей когорты, изменение осведомленности центров о квалификации и оценке и изменения в типе школы или когорты, получающей квалификацию. Таким образом, это изменение результатов, вероятно, предполагает небольшое непреднамеренное изменение стандарта квалификации. Анализы показывают, что это изменение стандарта могло произойти в основном в период с 2014 по 2017 год, когда наблюдался значительный рост поступления на квалификацию, включая множество новых центров, предлагающих информатику.
Второе направление работы было направлено на рассмотрение возможного влияния изменения стандартов на успеваемость, необходимую для получения 7 или 4 баллов в самых последних оценках. Группа из 8 экспертов по предметам рассмотрела примеры работ учащихся на различных баллах. Результаты показали, что эксперты считали, что небольшое изменение стандарта успеваемости, необходимого для получения учащимися 7 или 4 баллов, окажет ограниченное влияние на навыки и знания, демонстрируемые учащимися в этих классах. Однако более крупное изменение может потенциально подорвать ценность квалификации. Эксперты также предоставили различные качественные сведения о стандарте квалификации.
Принимая во внимание спектр доказательств, есть убедительные доводы в пользу того, что стандарты, возможно, не поддерживались последовательно в период с 2014 по 2019 год, поскольку в этот период стандарт устанавливался немного более строго. Это изменение стандартов, по-видимому, было результатом постепенного изменения в течение ряда лет. Эти небольшие постепенные изменения вряд ли были обнаружены старшими экзаменаторами в каком-либо отдельном году, но в совокупности привели к более существенному изменению. Это не является следствием неспособности организаций, присуждающих квалификации, обеспечить достаточный надзор и заботу в ходе процесса присуждения, а является следствием изменений в квалификации и контексте, в котором она действовала в этот период времени.
Введение
Цель
Компьютерные науки — это относительно новый GCSE, который был впервые присужден в 2012 году. С тех пор он претерпел ряд изменений с точки зрения содержания и структуры оценки квалификации, а также с точки зрения размера и состава группы, получающей квалификацию. В связи с этими изменениями и после представлений заинтересованных сторон Ofqual провела значительную программу исследований для рассмотрения стандартов оценивания в компьютерных науках GCSE с течением времени, с целью рассмотрения того, были ли стандарты эффективно сохранены.
Краткая история квалификаций и оценок GCSE по информатике
Экзамен GCSE по специальности «вычислительная техника» впервые был предложен организацией, присуждающей квалификации (AO) OCR, пилотная программа была выдана в 2011 году, а первая полноценная программа — в 2012 году. Квалификация была разработана с целью развития у студентов понимания внутренней работы и программирования компьютерных систем, в отличие от ориентированного на конечного пользователя существующего экзамена GCSE по специальности «ИКТ» (Dallaway, 2015).
Оценки в этой первой спецификации состояли из одного экзамена, составляющего 40% от квалификационной оценки, и двух контролируемых оценок, проводимых в классе, каждая из которых стоила 30%. Каждая контролируемая оценка длилась около 20 часов, а окончательная часть работы была создана в контролируемых условиях, то есть под непосредственным наблюдением учителя. Эти оценки были оценены внутри школ и колледжей (называемых повсюду центрами) и модерировались OCR.
В 2013 году Департамент образования (DfE) опубликовал национальную учебную программу по информатике, охватывающую ключевые этапы 1 и 4, а в 2014 году «компьютерная наука» была добавлена в школьную оценку успеваемости Ebacc в категории естественных наук. Это было направлено на стимулирование школ предоставлять образование в области компьютерных наук (Brown et al, 2014). В 2014 году GCSE по информатике предлагали еще 2 AO, WJEC и AQA, а OCR пересмотрела свою спецификацию, чтобы соответствовать новым требованиям по информатике для включения в Ebacc. Квалификация была предоставлена четвертым AO, Pearson, для первой оценки с 2015 года.
В период с 2014 по 2017 год структура квалификаций, предлагаемых различными AO, была похожа на ту, что изначально предлагалась OCR, хотя между AO были некоторые различия. Все квалификации состояли из экзамена и одной или нескольких контролируемых оценок, которые составляли от 25% до 60% от общей квалификации (подробности см. в Таблице 1). Все контролируемые оценки оценивались учителями изнутри и модерировались AO извне. Все AO имели один экзаменационный лист, однако WJEC также включал 2-часовую экранную оценку решения проблем с внешней оценкой, составляющую 30% квалификации в дополнение к контролируемой оценке.
Таблица 1. Структура оценки для различных спецификаций компьютерных наук, доступных до и после реформы GCSE, включая процентный вклад каждой оценки в результаты квалификации.
АО | ОРС | АКВ | ВЕК | Пирсон |
---|---|---|---|---|
Первая оценка | 2012 | 2014 | 2014 | 2015 |
Дореформенная структура (до 2017 г.) | 40% Письменный экзамен (Компьютерные системы и программирование)
30% Контролируемая оценка 1 (Практическое исследование) 30% Контролируемая оценка 2 (Проект по программированию) |
40% Письменный экзамен (Основы вычислительной техники)
60% Контролируемая оценка (Практическое программирование) |
45% Письменный экзамен (Понимание информатики)
30% Экранная оценка (Решение задач с использованием компьютеров) 25% Контролируемая оценка (Разработка вычислительных решений) |
75% Письменный экзамен (Основы информатики)
25% Контролируемая оценка (Практическое программирование) |
Структура после реформы (с 2018 г.) | 50% Письменный экзамен 1 (Компьютерные системы)
50% Письменный экзамен 2 (Вычислительное мышление, алгоритмы и программирование) |
50% Письменный экзамен 1 (Вычислительное мышление и решение проблем)
50% Письменный экзамен 2 (Письменная оценка) |
50% Письменный экзамен (Понимание информатики)
50% Экранный экзамен (Компьютерное программирование) |
50% Письменный экзамен (Принципы информатики)
50% Экранный экзамен (Применение вычислительного мышления) |
Примечание: Структура после реформы представляет собой структуру оценки квалификации после отмены NEA. Подробности см. в тексте.
Все предметы GCSE были реформированы для первого преподавания в период с 2015 по 2018 год. Реформированные GCSE оцениваются по шкале оценок от 9 до 1, а не по дореформенной шкале от A* до G. Реформированные спецификации GCSE по информатике были основаны на основном содержании предметов, определенном DfE (DfE, 2015), и были доступны для первого преподавания в 2016 году. В то же время был прекращен курс GCSE ICT (Ofqual, 2015a), который до этого момента находился рядом с GCSE по информатике. Требования к оценке для реформированных квалификаций были более конкретными, и поэтому все оценки AO следовали той же структуре. Оценка квалификаций после реформы должна была состоять из оценки с помощью экзамена, составляющей 80% оценок, и оценки без экзамена (NEA), которая должна была занять в общей сложности 20 часов в строго контролируемых условиях, составляя 20% оценок. NEA снова получила разрешение на внутреннюю оценку, но внешнюю модерацию.
Задание NEA для первого года реформированной GCSE по информатике было опубликовано экзаменационными комиссиями в сентябре 2017 года и должно было быть завершено к марту 2018 года, а первые экзамены по реформированным квалификациям были сданы летом 2018 года. Однако вскоре после выпуска NEA появились сообщения о широко распространенной халатности, включая решения по оценке, доступные онлайн, что привело к быстрой отмене NEA (Ofqual, 2017). После публичных консультаций Ofqual установил временные промежуточные меры оценки. Центры по-прежнему должны были проводить 20-часовую оценку, но она больше не учитывалась в общей оценке учащегося. Экзаменационные комиссии обновили вес своих экзаменационных работ, так что каждая из них учитывалась в размере 50% от оценок (см. Таблицу 1). Эти меры должны были действовать до 2021 года, в то время как Ofqual консультировался по долгосрочным изменениям в оценках (Ofqual, 2019).
Наряду с реформами в 2018 году был создан Национальный центр компьютерного образования (NCCE) для подготовки учителей информатики. NCCE предоставляет планы уроков и ресурсы, а также программы обучения для учителей. К 2018 году почти 80% учеников 11-го класса учились в школе, предлагающей GCSE по информатике (Kemp & Berry, 2019).
В 2020 и 2021 годах официальные экзамены были отменены для всех квалификаций GCSE и A level и заменены системой оценки учителей из-за последствий пандемии COVID-19. Экзамены вернулись в 2022 году, и в этот момент, после дальнейших консультаций Ofqual, экзамены GCSE по информатике были обновлены, чтобы включить вопросы, оценивающие знания и понимание студентами навыков программирования, вместо NEA (Ofqual, 2019). Это осталось в силе в 2023 и 2024 годах.
Подводя итог, можно сказать, что, несмотря на то, что GCSE является относительно новым предметом, который впервые был присужден в 2012 году, информатика претерпела множество изменений с точки зрения содержания и структуры оценки. Контекст, в котором она действует, также изменился, как и размер и состав когорты, получающей квалификацию.
Установление и поддержание стандартов оценивания
Определение того, были ли стандарты эффективно поддержаны в квалификации, является сложной задачей. Результаты квалификации могут меняться из года в год по многим причинам. Однако в большинстве случаев это законные увеличения или уменьшения результатов, которые не обязательно отражают изменение стандарта квалификации.
При стремлении поддерживать стандарты вне любых периодов изменений цель состоит в том, чтобы гарантировать, что результаты в последовательных годах одной и той же квалификации можно интерпретировать одинаково, с точки зрения того, что они говорят нам об успеваемости учащихся по предмету. Обычно мы говорим, что стандарты были соблюдены, если учащиеся, получающие одну и ту же оценку в разные годы, показывают эквивалентные уровни успеваемости. Под успеваемостью мы подразумеваем уровень навыков или знаний, которые учащиеся развили в ходе своего обучения. Когда все остальное стабильно, мы ожидаем, что это достижение будет подтверждено результатами учащихся в их оценках. Поэтому в стабильные периоды мы ожидаем, что качество работы учащихся, представленной на экзаменах или других оценках на каждой границе оценки (то есть «стандарт успеваемости»), будет очень схожим между сериями экзаменов. Целью процесса присуждения является установление границ оценок, которые делают это так.
Определение границ оценок, которые поддерживают стандарты, не является простым, поскольку оценки меняются из года в год, как с точки зрения содержания, охватываемого спецификацией квалификации, так и из-за изменений в сложности оценки. Хотя авторы оценок стремятся писать оценки, которые имеют одинаковую сложность для каждой серии экзаменов, на практике этого очень сложно достичь, поэтому, скорее всего, не будет двух экзаменов с абсолютно одинаковой сложностью. Следовательно, границы оценок вряд ли будут одинаковыми из года в год. Если оценка более требовательна в один год, то мы могли бы ожидать, что границы оценок будут ниже, чтобы компенсировать это. Существует дополнительный уровень сложности в том, что оценки GCSE являются «компенсаторными». Это означает, что студенты могут получать оценки в разных областях оценки, но получать одинаковые общие баллы, потенциально показывая очень разные профили с точки зрения их навыков и знаний. Поэтому, чтобы помочь экзаменаторам в их суждениях, используются статистические данные, помогающие определить направление и размер любых изменений в спросе на оценку. Подробности этих двух типов доказательств и то, как они используются совместно, обсуждаются ниже.
Хотя существуют сложности с поддержанием стандартов, после того, как квалификация хорошо установлена, цель поддержания стандарта производительности с течением времени относительно просто концептуализировать, как описано выше. Это менее актуально во времена изменений, когда обновляется содержание оценок или квалификации, например, во время реформы. Когда квалификации меняются, менее значимо рассматривать, сохраняется ли производительность в новой реформированной версии по сравнению с предыдущей версией по двум причинам. Во-первых, содержание квалификации и способ оценки этого содержания, вероятно, существенно изменились, что означает невозможность сопоставимых сравнений. Во-вторых, есть доказательства того, что такие изменения могут повлиять на успеваемость учащихся. Предыдущие данные показали, что успеваемость учащихся при оценке обычно ниже в первый год после реформы, и это обычно объясняется тем, что учителя менее знакомы с новым содержанием или особенностями обновленных оценок (Cuff et al., 2019). Затем производительность постепенно улучшается в течение следующих нескольких лет по мере того, как учителя лучше знакомятся с реформированными квалификациями. Эта модель падения успеваемости с последующим постепенным улучшением называется эффектом пилы (подробнее об этом можно прочитать в Newton, 2020). В эти периоды для экзаменаторов может быть бессмысленно пытаться определить схожие уровни успеваемости между квалификациями до и после реформы, и это может быть несправедливо, поскольку студенты рискуют оказаться в невыгодном положении, если они попадут в первую или раннюю когорту, получающую недавно реформированную квалификацию.
Таким образом, в периоды реформ в Англии статистические данные обычно имеют приоритет, а оценочные данные играют более вспомогательную роль, чтобы гарантировать, что студенты не окажутся в невыгодном положении. Этот подход направлен на вознаграждение студентов с одинаковым уровнем базовых достижений по обе стороны реформ, не ставя в невыгодное положение тех, чьи результаты в оценках могли быть ниже из-за отсутствия знакомства с оценками после реформы. Предполагается, что если состав когорты существенно не изменился, то мы не будем ожидать, что результаты будут существенно меняться из года в год на уровне когорты. Таким образом, принцип использования статистических данных заключается в том, что результаты новых оценок должны быть сопоставимы с результатами, если бы та же когорта получила квалификацию в другом году (Cresswell, 2003). Однако это означает, что качество работы, выполненной студентами в эти периоды, может быть ниже, чем качество работы, полученной студентами с той же оценкой в стабильные периоды.
Внедрение установления и поддержания стандартов
Стандарты в оценках GCSE в Англии поддерживаются посредством установления границ классов. Границы классов представляют собой самую низкую оценку, на которой учащиеся демонстрируют результаты, необходимые для получения каждой оценки. До реформы в GCSE награждение было сосредоточено на ключевых границах суждений A, C и F. Для поддержки поддержания стандартов в переходный период оценки A, C и G были привязаны к классам 7, 4 и 1 после реформы, которые стали новыми границами суждений. Промежуточные границы рассчитываются арифметически, равномерно распределенными между границами суждений. Экзаменаторы используют ряд доказательств, чтобы помочь им принять решение при рекомендации границ классов.
Экзаменаторы обычно изучают примеры студенческих работ, чтобы определить отметку, где студенты демонстрируют тот же уровень успеваемости, что и на границе оценок в предыдущем году. Для достижения этого используются «архивные доказательства», представляющие работу студентов на каждой границе оценок за предыдущие годы, чтобы инкапсулировать ожидаемый уровень успеваемости. Экзаменаторы проверяют качество студенческих работ по сравнению с архивными доказательствами, чтобы определить границы оценок, которые наиболее точно соответствуют стандарту успеваемости за предыдущий год.
Как обсуждалось в предыдущем разделе, решения экзаменаторов подкрепляются статистическими доказательствами. Одним из основных источников статистических доказательств являются прогнозы, основанные на предыдущих достижениях. Прогнозы учитывают предыдущие достижения каждой когорты и дают представление о том, какие результаты можно ожидать, если когорта в текущем году похожа на когорту в предыдущем базовом году с точки зрения всех характеристик, которые могут повлиять на результаты, за исключением предыдущих достижений. Они достигают этого путем переноса отношения добавленной стоимости для квалификации из базового года, то есть отношения между результатами когорты в предыдущем наборе квалификаций и текущей оценкой. Для GCSE это обычно отношение между результатами оценки KS2 и результатами GCSE. Поэтому, если способности когорты, измеренные по их предыдущим достижениям, похожи на базовый год, то прогнозируемые результаты будут похожи на результаты в базовом году. Однако, если способности когорты, изучающей предмет, увеличились или уменьшились, то прогнозы изменятся соответствующим образом. AO используют прогнозы для определения границ оценок, которые наиболее точно поддерживают связь между предыдущими результатами достижений когорты и результатами по рассматриваемому предмету с течением времени. Границы, предложенные прогнозами, затем используются для руководства суждениями экзаменатора по установлению границ оценок. Использование статистических прогнозов таким образом также помогает поддерживать согласование стандартов между различными AO.
Прогнозы основаны на подмножестве «соответствующих кандидатов», тех, кто относится к целевой возрастной группе (для GCSE это те, кому исполнится 16 лет на 31 августа года, в который они сдавали экзамены), у кого есть доступные данные о предыдущих достижениях (результаты KS2). Прогнозы GCSE также обычно исключают студентов в селективных или независимых центрах, поскольку исследования показали, что у них, как правило, иное соотношение добавленной стоимости между предыдущими достижениями и текущими результатами, чем у студентов в других центрах.
Надежность статистических доказательств будет варьироваться в зависимости от размера и стабильности когорты, получающей квалификацию. Когда число студентов, получающих квалификацию, невелико, статистические доказательства, вероятно, будут слабее, поэтому AO будут придавать большее значение другим источникам доказательств, таким как суждение экзаменатора. Аналогично, если произошли существенные изменения в когорте, получающей квалификацию, такие как значительное увеличение или уменьшение поступления или изменения в типах студентов или центров, получающих квалификацию, то статистические прогнозы могут быть менее надежным представлением производительности текущей когорты.
В первые годы после реформы GCSE большее значение придавалось статистическим прогнозам. Как обсуждалось ранее, это было сделано с целью избежать невыгодного положения учащихся в первые годы после реформы, когда успеваемость может быть ниже из-за незнакомства учителей с новым содержанием и оценками. Однако команды, присуждающие награды, продолжали тщательно изучать примеры студенческих работ, чтобы подтвердить, что качество студенческих работ на границах классов было приемлемым.
Установление и поддержание стандартов в области компьютерных наук GCSE, 2012–2023 гг.
В первой награде GCSE по информатике в 2012 году необходимо было установить стандарт для этой новой квалификации. Первая награда была в значительной степени оценочной, но статистические данные использовались для поддержки суждений присуждающих. Статистические прогнозы были получены из выбора связанных предметов GCSE (а именно, ИКТ, физики и математики), чтобы предоставить представление о том, как могут выглядеть результаты в первой награде по информатике, принимая во внимание способности когорты. Затем это использовалось для информирования экзаменатора о качестве работы, выполненной студентами в оценках, для определения границ оценок.
После первой награды в 2012 году и до 2017 года границы оценок продолжали устанавливаться на основе баланса статистических данных и суждений экзаменаторов с целью поддержания стандарта производительности. В большинстве лет статистические прогнозы составлялись на основе результатов предыдущего года, чтобы направлять экзаменаторов при вынесении суждений. В первые годы квалификации AO также знали, что это были новые оценки и новая спецификация, с которыми учителя были несколько незнакомы.
Реформированные оценки GCSE по информатике впервые были присуждены в 2018 году. Как и для всех реформированных GCSE, статистические данные были приоритетными в период реформы (2018 и 2019). Как описано выше, это было сделано для того, чтобы гарантировать, что учащиеся не окажутся в невыгодном положении из-за каких-либо спадов в успеваемости в переходные годы, и преодолеть проблемы с использованием суждений экзаменаторов в этот период.
Во время пандемии COVID-19 (2020 и 2021 гг.) обычные процедуры оценки были приостановлены, и оценки выставлялись на основе оценок учителей. Обычные процедуры экзаменов GCSE вернулись летом 2022 г. Однако в 2022 г. границы классов были установлены таким образом, что результаты оказались примерно средними между результатами 2021 и 2019 гг. в рамках двухлетнего возврата к допандемическим стандартам.
Лето 2023 года стало первым годом, когда оценка вернулась к стандартам оценок, существовавшим до пандемии. Чтобы облегчить это, установление стандартов по информатике GCSE летом 2023 года руководствовалось прогнозами, чтобы общие результаты были аналогичны результатам 2019 года. Этот подход был принят для переноса стандарта оценки, существовавшего до пандемии, но с защитой, встроенной в процесс оценки, для признания нарушений, с которыми столкнулись учащиеся. Это позволило учесть тот факт, что результаты экзамена могли быть немного ниже, чем до пандемии, аналогично подходу, принятому во время реформы. Однако экзаменаторам было предложено при присуждении в 2023 году проверить работу учащихся на границах оценок и подтвердить, что учащиеся демонстрируют приемлемый уровень успеваемости. Таким образом, 2023 год дает хорошее представление о текущем стандарте успеваемости.
Структура этого отчета
В предыдущих разделах этого отчета была изложена история компьютерных наук GCSE, принципы, лежащие в основе установления и поддержания стандартов, и то, как это реализуется в процессе награждения. Это направлено на поддержку понимания аналитических подходов, которые документируются в основных разделах этого отчета.
Работа ведется по двум основным направлениям: в первом направлении использовался ряд методологий и анализов для изучения наличия доказательств того, что стандарты не соблюдались последовательно с течением времени, а во втором направлении рассматривалось возможное влияние любых изменений на текущий стандарт путем анализа примеров студенческих работ лета 2023 года.
Методология, результаты и промежуточные выводы, касающиеся каждого анализа, изложены в последующих разделах, после чего обсуждаются общие результаты и делаются выводы.
В этом отчете будут упоминаться оценки A/7, C/4 или G/1 для описания эффектов в этих оценках, которые охватывают версии квалификации до и после реформы. Когда мы говорим о проценте студентов, получающих каждую оценку, мы имеем в виду совокупный процент, то есть процент студентов, получающих либо рассматриваемую оценку, либо более высокую оценку.
Направление 1 — Стандарты с течением времени с 2012 по 2019 гг.
Цели
Цель этого направления — исторически оглянуться на стандарты в области компьютерных наук GCSE, сосредоточившись на периоде с момента, когда оценки впервые были проведены (2012) до последнего года перед пандемией (2019). Это в основном для того, чтобы определить, произошли ли какие-либо неожиданные изменения в стандартах этой квалификации с течением времени. Если какие-либо изменения в стандарте будут выявлены, цель — попытаться понять причину этих изменений и размер влияния на результаты учащихся.
Структура нити 1
Для достижения вышеуказанной цели мы использовали различные подходы к рассмотрению стандартов в квалификации с течением времени, как чисто количественные, так и более качественные подходы. В следующих разделах этого отчета будет поочередно описан каждый из этих методов, подробно описаны цели, методология и основные выводы отдельных подходов. Каждый из этих методов позволяет нам контролировать различные потенциально мешающие факторы, однако каждый метод также имеет свои собственные ограничения и предположения, которые мы излагаем в каждом разделе. Затем мы соберем воедино выводы из этих отдельных анализов.
Первый раздел (анализы 1 и 2) включает контекстную справочную информацию об изменениях в квалификации. Сюда входит описательная информация о том, как со временем менялись квалификация и когорта, а также обзор того, как АО подходили к поддержанию стандартов и установлению границ классов в каждом году.
Второй раздел (анализы 3–7) содержит ряд статистических методов, которые рассматривают взаимосвязь между результатами квалификации и другими показателями успеваемости учащихся с течением времени.
Необходимо проявлять осторожность при прямом сравнении результатов различных анализов, поскольку каждый из них имеет свои собственные предположения и в некоторых случаях рассчитывается с использованием несколько иной подгруппы населения.
Данные
Ключевым набором данных, используемым для большинства анализов, представленных в этом отчете, является Национальная база данных учащихся (NPD). Это набор данных, поддерживаемый DfE, который содержит сведения о результатах оценки учащихся, а также большое количество других характеристик учащихся и центров. Данные были взяты из NPD за 2011–2019 годы и отфильтрованы по учащимся, которые сдавали GCSE по информатике для первичного анализа. Данные по математике, физике и английскому языку GCSE также используются в различных анализах для сравнения. Данные о предыдущих достижениях были доступны в NPD для большинства учащихся в каждом году на основе их результатов оценки национальной учебной программы на ключевом этапе 2 (KS2) по математике и английскому языку.
Данные были отфильтрованы только по 16-летним ученикам из Англии, имеющим действительные оценки GCSE. Данные о результатах были объединены с данными школьной переписи для предоставления характеристик учащихся, в том числе: тип посещаемого центра, пол, этническая группа, язык общения, статус особых образовательных потребностей (SEN) и право на бесплатное школьное питание (FSM). Таблица 2 показывает количество учащихся, поступивших на курс GCSE по информатике в каждом году, а также процент учащихся с доступными данными переписи и данными о предыдущих достижениях. Примечательно, что доступность данных о предыдущих достижениях ниже в 2015 году из-за бойкота оценок KS2 в 2010 году. Большая часть анализа сосредоточена на годах с 2014 по 2019 год. Данные до 2014 года представлены там, где это возможно, но к ним следует относиться с осторожностью, поскольку записи были небольшими.
Данные о статистических прогнозах, используемых AO, поступают из наборов данных, регулярно предоставляемых Ofqual в рамках рутинного мониторинга результатов в каждом году. Дополнительные данные также были собраны из 2 AO с наибольшим входом в компьютерные науки, OCR и AQA. Они включали документацию принятия решений во время установления границ классов в каждом году и некоторую вспомогательную информацию, используемую.
В случаях, когда использовались дополнительные наборы данных или проводилась дополнительная обработка данных, это подробно описано в соответствующем разделе.
Таблица 2. Сводка количества студентов и коэффициентов соответствия по наборам данных за каждый год
Год | Всего студентов, изучающих информатику | % с данными переписи | % с данными о предыдущих достижениях |
---|---|---|---|
2011 (пилот) | 92 | 97,8 | 96.7 |
2012 | 1,745 | 92.3 | 90,7 |
2013 | 4,179 | 95,9 | 92.7 |
2014 | 16,011 | 96.7 | 92.2 |
2015 | 33,773 | 96.6 | 69.1 |
2016 | 61,751 | 96.9 | 92.6 |
2017 | 67,374 | 96.8 | 92,5 |
2018 | 71,111 | 96.2 | 91,6 |
2019 | 75,165 | 95.2 | 91,6 |
Направление 1. Анализ 1. Изменения в когорте и результаты с течением времени
Цель
Изменения в группе, проходящей оценку, могут усложнить эффективное поддержание стандартов в квалификации с течением времени. Цель этого первого раздела — выявить любые изменения в группе, поступившей на GCSE computer science с течением времени. Это позволит определить, могут ли такие изменения указывать на случай для дальнейшего изучения и предоставить контекст для любого дальнейшего анализа.
Размер когорты
На рисунке 1 показано количество студентов, поступивших на курс GCSE computer science в период с 2011 по 2019 год, как в целом, так и с разбивкой по отдельным AO. На этом рисунке есть 2 примечательных момента. Во-первых, OCR, AO, который первым предложил GCSE, продолжает иметь большинство заявок с течением времени. Во-вторых, количество студентов, поступивших на эту квалификацию, быстро росло в период с 2014 по 2016 год, прежде чем рост заявок замедлился.
Рисунок 1. Количество поступивших на курс GCSE по информатике с течением времени, в целом и с разбивкой по AO.
Характеристики центра
На рисунке 2 показаны различные типы центров, принимающих студентов на курс GCSE по информатике с течением времени. Центры подразделяются на независимые центры, селективные центры, поддерживаемые школы (включая средние школы, академии и бесплатные школы) и колледжи. Примечательно, что в первые пару лет после того, как квалификация стала доступной, доля студентов из независимых и селективных центров была намного больше. Однако после 2014 года доля студентов из разных типов центров оставалась в целом стабильной.
Рисунок 2. Доля поступивших в каждый год из разных типов центров.
На рисунке 3 показано количество студентов в «новых» центрах, поступающих на квалификацию каждый год. Под «новыми» центрами мы подразумеваем центры, которые ранее не подавали заявки на квалификацию. Как видно из рисунка 3, большая часть студентов, поступавших на квалификацию, были из «новых» центров примерно до 2016 года. В таблице 3 суммированы количество центров и средний набор на центр в каждый год. Примечательно, что по мере увеличения размера набора большая часть этого увеличения была за счет новых центров, предлагающих квалификацию, а не за счет существующих центров, увеличивающих количество принятых студентов. Средний размер набора на центр постепенно увеличивался в период с 2012 по 2016 год, прежде чем стабилизироваться с 2016 года, что может указывать на некоторые изменения в когортах внутри центров. Стандартные отклонения также указывают на то, что существует большое количество различий в размере набора между центрами.
Эти изменения в когорте стоит отметить в контексте доказательств, показывающих, что когда центры не знакомы с предложением квалификации, студенты в этих центрах могут показывать худшие результаты при оценке (Ньютон, 2020). В те годы, когда большое количество студентов, поступающих на квалификацию, были в новых центрах, это могло привести к тому, что результаты когорты были слабее, чем можно было бы ожидать.
Рисунок 3. Процент студентов, поступающих каждый год из центров, которые принимали студентов впервые.
Таблица 3. Количество центров и среднее количество студентов в центре с течением времени.
Год | N-центры | Среднее количество входов на центр | Вход SD в центр |
---|---|---|---|
2012 | 97 | 18.0 | 10.7 |
2013 | 210 | 19.9 | 14.2 |
2014 | 724 | 22.1 | 15.0 |
2015 | 1,437 | 23.5 | 15.8 |
2016 | 2,340 | 26.4 | 19.7 |
2017 | 2,652 | 25.4 | 17.4 |
2018 | 2,845 | 25.0 | 16.7 |
2019 | 2,922 | 25.7 | 17.5 |
Характеристики студента
Далее мы рассмотрим характеристики студентов, изучающих информатику с течением времени. На рисунке 4 показан средний стандартизированный балл предыдущих достижений студентов с течением времени. Это достижения студентов в оценках KS2 за 5 лет до сдачи GCSE. Балл KS2 представлен здесь по стандартизированной шкале от 0 до 100 со средним значением 50 для всех студентов GCSE. Из рисунка 4 можно увидеть, что предыдущие достижения студентов, изучающих информатику, довольно быстро снизились в период с 2012 по 2014 год, стабилизировались в 2015 году, прежде чем снова упасть в 2016 году и постепенно расти до 2019 года. Связь между предыдущими достижениями и результатами GCSE сильна для многих предметов GCSE (Benton & Sutch, 2014) и поэтому может дать хорошее представление об ожидаемых результатах, где другие факторы остаются стабильными. Что важно, он также используется при формировании прогнозов, которые используются для помощи в установлении границ классов (см. раздел «Операционализация установления и поддержания стандартов»).
Рисунок 4. Средний балл успеваемости с течением времени для студентов GCSE, изучающих информатику.
Таблица 4 показывает долю студентов, изучающих информатику, с различными характеристиками. Это показывает, что кандидатура постепенно менялась с течением времени. Наиболее заметно, что доля студентов, изучающих этот предмет, с английским как иностранным языком (EFL) и с особыми образовательными потребностями (SEN) постепенно увеличивалась с 2013 года. Кандидатура также стала более разнообразной, с более низкой долей белых студентов и растущей долей студенток, изучающих этот предмет. Наибольшее изменение по большинству характеристик произошло между 2015 и 2016 годами, когда также существенно увеличилось количество заявок.
Таблица 4. Характеристики группы GCSE по информатике с течением времени.
Год | % ФШМ | % ЭФЛ | % СЕН | % Белый | % Женский |
---|---|---|---|---|---|
2012 | 5.2% | 13,5% | 10.3% | 79.0% | 13,5% |
2013 | 8.4% | 14,5% | 8,5% | 77,9% | 14,5% |
2014 | 9,9% | 14,9% | 9,6% | 78.0% | 15,4% |
2015 | 9.2% | 15,6% | 9.0% | 78.1% | 16.2% |
2016 | 10.3% | 17.0% | 9,3% | 77,3% | 20,5% |
2017 | 9,8% | 17,2% | 9,3% | 76,8% | 20,2% |
2018 | 9,7% | 18,9% | 9,6% | 74,1% | 20,4% |
2019 | 10,7% | 19,9% | 9,7% | 71,8% | 21,6% |
Результаты
Наконец, мы рассмотрим результаты квалификации с течением времени. Это намеренно представлено после вышеприведенного анализа других изменений с течением времени, поскольку результаты могут меняться по ряду законных причин, которые могут быть связаны с некоторыми из вышеприведенных изменений в схемах входа.
Рисунок 5 показывает совокупный процент учащихся, достигших как минимум оценок C/4 и A/7 с течением времени. Хотя результаты в целом снизились с течением времени в обоих классах, есть особенно заметный сдвиг между 2015 и 2016 годами. Это совпадает с большим увеличением числа заявок и некоторыми изменениями в кандидатурах, отмеченными выше. Это также совпадает с падением среднего предыдущего достижения когорты, что может представлять собой законное падение результатов.
Рисунок 5. Совокупный процент результатов учащихся, получивших по крайней мере оценки A/7 и C/4 с течением времени.
Краткое содержание
Описательные анализы, представленные здесь, предоставляют контекст для анализа и обсуждения, которые следуют далее. Эти анализы подтверждают, что квалификация претерпела изменения в размере и составе когорты, изучающей предмет, а также в результатах по информатике GCSE. Эти анализы показали, что результаты по информатике GCSE со временем ухудшились, особенно в период с 2012 по 2016 год.
Как уже отмечалось, изменения в когортах с течением времени усложняют поддержание стандартов. Последующие анализы направлены на то, чтобы определить, отражают ли наблюдаемые изменения в результатах реальные изменения в успеваемости когорты GCSE по информатике с течением времени или их можно отнести к изменению стандартов за этот период.
Из приведенного выше описательного анализа характеристик учащихся можно выделить три потенциально обоснованные причины изменения результатов:
- Результаты могут ухудшиться, поскольку группа, сдающая GCSE по информатике, со временем стала слабее. Данные из данных о предыдущих достижениях показывают, что это может быть так.
- Студенты в центрах, которые впервые предоставляют квалификацию, могут показать худшие результаты на оценках, возможно, из-за незнания преподавателем содержания курса и оценок. Это может привести к тому, что результаты для этих центров будут ниже, чем в случае, когда их знакомство увеличится. В годы с большим количеством новых центров это может способствовать общему падению результатов, если границы, основанные на прогнозах, предполагали качество работы студента, которое не могло быть поддержано экзаменаторами.
- Когорты в более поздние годы могут функционально отличаться от тех, что были в более ранние годы. По мере увеличения числа центров, когорты в этих более новых центрах могут иметь, как правило, более низкие результаты (по сравнению с их предыдущими достижениями), чем студенты в центрах, получающих квалификацию в более ранние годы. Это может быть связано с демографическими различиями или такими факторами, как ресурсы центра или опыт преподавателей, различающиеся между центрами раннего и позднего приема.
Каждый из вышеперечисленных факторов может привести к законным изменениям в результатах квалификации. В остальной части отчета мы стремимся контролировать и компенсировать один или несколько из этих факторов в анализах, чтобы понять, что может способствовать изменению результатов. Если изменения в результатах нельзя отнести к вышеперечисленным факторам, это может указывать на непреднамеренное изменение стандартов с течением времени.
Направление 1. Анализ 2. Прогнозы, границы оценок и документы о присуждении
Введение
В этом разделе мы рассматриваем данные AO, предлагающих GCSE computer science с течением времени, которые являются результатом или способствуют принятию решений относительно установления границ классов в каждом году. Цель состоит в том, чтобы определить, могут ли быть индикаторы потенциального изменения стандартов или риски для поддержания стандартов.
Результаты относительно прогнозов
Границы классов в GCSE по информатике были установлены с использованием баланса статистических и оценочных доказательств. Каждый год статистические прогнозы создавались на основе базового года, из которого переносится связь между предыдущими достижениями и результатами, как описано в разделе «Операционализация установления и поддержания стандартов».
Для GCSE computer science каждый год прогнозы основывались на результатах предыдущего года, за исключением 2016 года, когда прогнозы основывались на 2014 году. Причина обновления базисного года для прогнозов обычно заключается в том, чтобы лучше отразить когорту, прошедшую оценку, если состав когорты меняется со временем, как это было в случае с computer science. Базисный год также может быть обновлен, если записи увеличились по небольшим предметам, поскольку более крупные выборки обычно обеспечивают более надежный прогноз. В 2016 году «базисный год» не обновлялся для computer science, поскольку из-за бойкотов оценки KS2 в 2010 году в 2015 году было меньше соответствующих кандидатов.
Рисунок 6 и Рисунок 7 суммируют разницу между прогнозируемыми результатами и результатами сопоставленных кандидатов для классов A/7 и C/4 соответственно. Данные объединены по всем AO, предлагающим квалификацию в каждом году, взвешенные по их общему количеству поступивших.
Рисунок 6. Совокупные фактические результаты и прогнозируемые результаты для подобранных кандидатов на экзамене GCSE по информатике на уровне A/7.
Рисунок 7. Совокупные фактические результаты и прогнозируемые результаты для подобранных кандидатов на экзамене GCSE по информатике на уровне C/4.
Рисунок 6 и Рисунок 7 показывают, что между 2014 и 2016 годами результаты в классе A/7 были немного ниже прогнозов, хотя и в пределах разницы в 1 процентный пункт (пп). Учитывая, что прогнозы, вероятно, будут менее надежными, если они основаны на небольшом количестве заявок, 1пп не представляет большой разницы, и лица, присуждающие награды, могут законно придавать большее значение другим доказательствам, когда статистика менее надежна. Результаты в классе C/4 были близки к прогнозам во все годы, за исключением 2016 года, когда они были в целом примерно на 3пп ниже прогноза.
Информация из документов о присуждении наград показывает, что когда результаты были ниже прогнозов, это обычно происходило потому, что экзаменаторы считали качество работы слишком низким на границе оценок, указанной в прогнозе, и поэтому была рекомендована более высокая граница, чем та, которая предлагалась в прогнозах. На рисунке 8 показаны границы оценок, установленные с течением времени для AO с наибольшим входом (OCR) как в их проверенных, так и в контролируемых оценках.
Рисунок 8. Границы оценок с течением времени для оценок OCR.
Злоупотребление служебным положением
Документация подчеркивает обеспокоенность экзаменаторов по поводу халатности еще с 2014 года и до реформы, а также риск того, что это приведет к инфляции оценок в контролируемых оценках. Несмотря на эту обеспокоенность, как правило, границы оценок в контролируемом элементе оценки оставались стабильными, чтобы отразить тот факт, что задача, а следовательно, и спрос на оценку, оставались неизменными из года в год. Возможно, удивительно, что, несмотря на то, что границы оценок обычно снижались в проверяемом элементе и возможная инфляция оценок в контролируемой оценке, это не приводило к более высоким, а скорее к более низким результатам с течением времени. Это подразумевает когорту, которая была слабее и менее подготовленной в последующие годы по сравнению с их предыдущими достижениями.
В 2016 году OCR внесла изменения в одну из своих контролируемых оценок, чтобы сделать задачу более открытой, пытаясь избежать недобросовестной практики, такой как размещение решений в Интернете. Это изменение оценки могло привести к временному изменению производительности из-за новизны этой оценки, что привело к пилообразной схеме производительности. Граница оценки в контролируемой оценке была снижена на один балл, чтобы компенсировать потенциальное увеличение сложности (см. Рисунок 8), однако границы были снова повышены в 2017 году по мере улучшения производительности.
Год отчёта
Одним из возможных последствий, возникающих из способа установления стандартов в этот период, является потенциальный кумулятивный эффект многократного присуждения результатов ниже прогноза с последующим обновлением базовых лет для расчета будущих прогнозов. Если результаты присуждаются ниже прогноза в определенном году, и этот год становится базовым годом для прогноза на будущий год (чтобы наилучшим образом отразить последнее наблюдаемое отношение добавленной стоимости), то ожидаемое отношение добавленной стоимости таково, что прогнозируемые результаты будут ниже для студентов с теми же предыдущими достижениями, чем это было бы раньше. Если это происходит неоднократно, как в GCSE computer science, это приводит к кумулятивному снижению ожидаемого отношения добавленной стоимости для будущих когорт, кумулятивно снижая ожидаемые результаты для студентов с теми же предыдущими достижениями с течением времени, чтобы отразить наблюдаемую успеваемость студентов.
Таблица 5 дает грубую оценку размера этого эффекта с учетом базового года, используемого в каждом году. Хотя это всего лишь простой расчет, который не учитывает возможные изменения в распределении предыдущих достижений с течением времени, он указывает на потенциальный «дефляционный эффект» на результаты, хотя и основанный на суждениях о приемлемости студенческих работ. Таблица 5 показывает, что к 2019 году этот «дефляционный» эффект мог бы привести к прогнозам примерно на 1,5 пп ниже в A/7, на 3,5 пп в C/4 и на 1,8 пп в классе G/1 относительно 2014 года.
Таблица 5. Расчетный кумулятивный эффект присуждения ниже прогноза на будущие прогнозы. Цифры показывают кумулятивную разницу между прогнозами и результатами с течением времени в процентных пунктах.
Год | Базовый год, используемый для прогнозов | Оценка А/7 | Класс C/4 | Класс Г/1 |
---|---|---|---|---|
2014 | 2013 | -0,87 | -0,37 | 0,05 |
2015 | 2014 | -1,72 | -0,42 | 0,04 |
2016 | 2014 | -1.45 | -3.33 | -1.46 |
2017 | 2016 | -1.33 | -3.70 | -1,78 |
2018 | 2017 | -1.37 | -3.63 | -1,67 |
2019 | 2018 | -1.46 | -3.49 | -1,78 |
В отдельные годы эти результаты отражают суждения экзаменатора о качестве результатов, которые были сделаны в течение этого периода. Таким образом, это снижение прогнозов может быть оправдано, если это представляет собой постоянное изменение ожидаемого отношения добавленной стоимости когорты, то есть если в целом когорта выступает хуже по сравнению с предыдущими достижениями, чем в предыдущие годы, и ожидается, что это будет продолжаться бесконечно. Однако, если некоторые из более слабых результатов в предыдущие годы были вызваны временными эффектами, такими как пилообразные или пилообразные эффекты, это может привести к неоправданному постоянному изменению стандартов.
Краткое содержание
В целом, отчеты о присуждении дипломов указывают на то, что с течением времени возник ряд проблем в поддержании стандартов, особенно в период с 2014 по 2016 год, когда было большое количество студентов из новых центров. AO устанавливали границы оценок ниже тех, которые предполагались предыдущими прогнозами на основе достижений, в ряде случаев в течение этого периода, что могло быть связано с тем, что студенты в новых центрах демонстрировали более слабую успеваемость. Положение границ оценок также предполагает растущее несоответствие в результатах между контролируемой оценкой и экзаменами, что могло быть связано с халатностью.
Один потенциальный риск, выявленный в ходе обзора материалов награждения, был связан с подходом к расчету прогнозов. Базовые годы были обновлены, чтобы гарантировать, что прогнозы являются точным представлением отношения присужденной добавленной стоимости, наблюдавшегося в предыдущем году. Это изменение в сочетании с последовательным награждением нижеприведенных прогнозов могло привести к небольшому кумулятивному снижению ожидаемых результатов, уместность которых могла или не могла сохраниться в последующие годы.
Раздел 1. Анализ 3. Результаты по сравнению с другими квалификациями GCSE с течением времени
Цель
Один из способов рассмотреть стандарты квалификации — посмотреть, как студенты, получающие определенную квалификацию, показали себя в других квалификациях, которые они изучали параллельно. Цель этого раздела — проанализировать, меняется ли со временем связь между результатами студентов по информатике GCSE и их результатами по другим предметам, которые они изучали параллельно. Изменение может указывать на то, что стандарты в информатике изменились.
Целью этого анализа не было сосредоточиться на прямой статистической сопоставимости между компьютерными науками и другими предметами. Абсолютные различия между предметами в этих анализах не являются проблематичными ни в определенном году, ни сохраняющимися с течением времени. Оценки учащихся по разным предметам могут быть выше или ниже, чем по другим предметам по целому ряду причин, которые могут включать в себя время обучения, отведенное на предмет, мотивацию учащихся, продолжительность изучения предмета учащимися и другие факторы (более подробное обсуждение см. в Ofqual, 2015b). Поэтому мы не ожидаем, что результаты учащихся будут идеально выровнены по предметам. Вместо этого целью этого анализа было использовать результаты по другим предметам в качестве ориентира для определения того, изменилась ли относительная сложность компьютерных наук с течением времени. Поэтому ключевым предположением этого анализа является то, что нет никаких оснований ожидать, что относительная сложность сравниваемых нами предметов изменится с течением времени.
Методы
Мы использовали 2 метода для оценки сложности GCSE по информатике в сравнении с другими предметами, которые изучали те же студенты в каждом году: модель сложности Раша (см. Coe, 2008) и метод Келли (Kelly, 1976). Эти анализы дают представление о том, насколько хорошо студенты в среднем справлялись с другими предметами GCSE в каждом году по сравнению с информатикой, и дают относительную оценку «сложности» для каждого предмета.
Однако стоит отметить, что хотя эти методы эффективно контролируют «общие способности» группы, измеряемые по успеваемости учащихся по другим предметам GCSE, они не способны контролировать другие факторы, которые могут меняться со временем и влиять на успеваемость по конкретным предметам, такие как качество преподавания или мотивация учащихся.
Первый метод заключался в использовании модели сложности Раша для выравнивания сложности по разным предметам в каждом году. Для этой модели каждый предмет, который изучал студент, рассматривался как отдельный элемент оценки. Однако в качестве порогового значения для категорий успеваемости использовались только ключевые оценки. Чтобы облегчить это, оценки были преобразованы в баллы (см. Таблицу 6). Студенты, не изучающие предмет, рассматривались как пропустившие ответы. В анализ были включены только студенты, которые сдали не менее 3 экзаменов GCSE, и только предметы с не менее чем 1000 записей в каждом году.
Таблица 6. Подробная информация о переводе оценок в баллы для анализа Раша.
Счет | Устаревшие квалификации | Реформированные квалификации |
---|---|---|
0 | Неоцененный | Неоцененный |
1 | Д, Э, Ф, Г | 3, 2, 1 |
2 | Б, С | 6, 5, 4 |
3 | А, А* | 9, 8, 7 |
Затем модель Раша была подогнана для одновременного предоставления меры «сложности» для каждой из ключевых оценок по каждому предмету и меры «способности» для каждого ученика. Мера сложности фактически является средним баллом «способности» учеников, достигших каждой оценки по каждому предмету в каждом году. Таким образом, более высокий балл по шкале сложности Раша указывает на то, что среднему ученику сложнее достичь этой оценки. Результаты для модели Раша по своей сути являются относительными к другим предметам и находятся в произвольной шкале. Поэтому вместо того, чтобы представлять оценки сложности Раша изолированно, мы предоставляем относительную разницу в оценках сложности между информатикой и 3 другими предметами, математикой, физикой и английским языком в каждом году. Мы используем эти предметы из-за их большого и относительно стабильного поступления, а также потому, что математику и английский язык изучают подавляющее большинство 16-летних учеников в каждом году. Поэтому, если мы предположим, что распределение способностей учеников, включенных в анализ, одинаково в каждом году, то мы можем сравнить эти баллы между годами, чтобы увидеть, как они меняются. Более подробное обсуждение методологии см. в работах Хе и Блэка (2020) и Хе и Кэдвалладера (2022).
Второй подход, метод Келли, дает альтернативную оценку сложности. Он включает в себя расчет «корректировки» оценок, необходимой по каждому предмету, чтобы средняя разница между оценкой каждого ученика по этому предмету и средней оценкой по другим предметам была равна 0 (более подробную информацию о методологии см. в Coe et al, 2008). Эту оценку можно вольно интерпретировать как среднюю разницу в сложности для каждого предмета от среднего предмета. Корректировка рассчитывается по шкале оценок A*-G (от 8 до 1). Поэтому для этого анализа оценки 9 к 1 были преобразованы в шкалу 8 к 1 на основе предполагаемой вероятности того, что ученик, получивший каждую пронумерованную оценку, получит каждую буквенную оценку (см. Таблицу 7).
Таблица 7. Подробности перевода оценок от 9 до 1 в шкалу от 8 до 1 для анализа.
Оценка по шкале от 9 до 1 | Оценка переведена в шкалу от 8 до 1 |
---|---|
9 | 8 |
8 | 7.25 |
7 | 7 |
6 | 6 |
5 | 5.5 |
4 | 5 |
3 | 3.75 |
2 | 2.5 |
1 | 1.25 |
0 | 0 |
Опять же, вместо предоставления абсолютного балла мы приводим относительную разницу в баллах между информатикой и физикой, английским языком и математикой, чтобы определить, изменился ли разрыв между информатикой и этими предметами с течением времени.
Результаты
Трудность Раша
Рисунок 9. Относительная сложность курса информатики GCSE по сравнению с другими предметами с течением времени – оценка A/7.
Рисунок 10. Относительная сложность курса информатики GCSE по сравнению с другими предметами с течением времени – оценка C/4.
Рисунок 11. Относительная сложность курса информатики GCSE по сравнению с другими предметами с течением времени – оценка G/1.
Рисунок 9, Рисунок 10 и Рисунок 11 показывают относительную сложность английского языка, физики и математики по сравнению с информатикой на основе статистического определения, описанного выше. Увеличение относительной оценки сложности указывает на то, что на основе этих измерений информатика стала сложнее по сравнению с предметом сравнения.
Как видно из рисунков 9 и 10, наблюдается общая тенденция к росту сложности информатики с течением времени по сравнению с другими предметами как в классе A/7, так и в классе C/4. В классе A/7 это увеличение составляет от 0,19 до 0,40 по шкале Раша с 2014 по 2019 год, а в классе C/4 это увеличение составляет от 0,16 до 0,30 за тот же период времени. Абсолютное изменение балла по информатике за этот период составляет 0,1 в классе C/4 и 0,29 в классе A/7. Перевод этих баллов в оценки — сложная задача, но в среднем значение балла по шкале Раша 1,4 соответствует примерно 1 баллу по шкале от 9 до 1 в каждом году по всем предметам, поэтому вышеприведенная цифра отражает увеличение сложности примерно на 0,12–0,21 балла в период с 2014 по 2019 год для оценки C/4 и на 0,14–0,28 для оценки A/7.
В классе G/1 результаты неоднозначные (рисунок 11), некоторые данные указывают на снижение сложности GCSE по информатике по сравнению с другими предметами. Используя аналогичную процедуру для преобразования баллов Раша в оценки, можно предположить снижение сложности в классе G/1 в среднем на 0,18 балла между 2014 и 2019 годами, хотя это варьируется от -1,5 баллов (по сравнению с физикой) до +0,55 баллов (по сравнению с математикой) в зависимости от предмета сравнения.
Метод Келли
Рисунок 12. Относительная разница между средней оценкой по информатике и оценкой по другим предметам.
Анализ метода Келли показывает, что разница в сложности между информатикой и тремя другими предметами, включенными сюда, со временем увеличилась, особенно в период с 2015 по 2017 год (рисунок 12). Анализ оценивает, что в период с 2014 по 2019 год учащиеся получили оценку на 0,15–0,24 ниже по информатике по шкале от A* до G по сравнению с другими предметами. После простого пропорционального масштабирования по шкале от 9 до 1 это соответствует оценкам от 0,17 до 0,27, со средней корректировкой 0,18 по всем другим предметам GCSE, включенным в анализ в каждом году.
Краткое содержание
В целом, оба вышеприведенных метода указывают на то, что учащиеся, как правило, получали все более низкие результаты по информатике GCSE по сравнению с другими предметами GCSE с течением времени. Также стоит повторить, что здесь мы не фокусируемся на абсолютной разнице в баллах между различными предметами, которая, как обсуждалось ранее, может возникать по ряду различных причин, а на относительном изменении с течением времени. Эти относительные изменения могут указывать на изменение стандартов, представляющее собой увеличение сложности информатики GCSE с течением времени. Однако это относительное изменение результатов по предметам также может быть обусловлено другими факторами, которые могут законно привести к изменению результатов по различным предметам, например, готовностью учащихся к оценкам, которую нельзя контролировать с помощью этого метода.
Направление 1. Анализ 4. Анализ прогрессии
Цель
Одной из заявленных целей GCSE является подготовка учащихся к дальнейшему обучению. Целью этого анализа является определение того, изменилась ли связь между результатами GCSE и A level по информатике со временем. Если предположить, что стандарт уровня A не изменился, то связь между результатами GCSE и результатами A level должна дать представление о том, изменилась ли со временем ценность оценки GCSE в указании вероятного успеха на уровне A. То есть, показывают ли учащиеся с определенной оценкой GCSE более высокие достижения в информатике в некоторые годы, чем в другие, что приводит к лучшим (или худшим) результатам A level.
Если GCSE стал сложнее, то мы могли бы ожидать, что ученики с той же оценкой GCSE будут лучше справляться с экзаменами уровня A с течением времени, поскольку у них более высокий базовый уровень знаний по предмету, чем у учеников, получивших ту же оценку в предыдущие годы. И наоборот, мы могли бы ожидать, что ученики, получившие ту же оценку уровня A, могут иметь в среднем более низкие результаты GCSE с течением времени.
Однако стоит повторить, что ключевым предположением этого анализа является то, что стандарты оценивания на уровне A не изменились с течением времени — предположение, которое мы здесь не проверяем. Также может быть взаимодействие с политикой поступления в центр для курсов уровня A, которое невозможно контролировать. Однако, в отличие от GCSE, компьютерные науки уровня A не являются новым предметом, и в течение интересующего периода не было никаких систематических изменений в квалификации, которые могли бы указывать на то, что это предположение может быть проблематичным.
Метод
Данные уровня A были взяты из NPD за годы с 2014 по 2019 и отфильтрованы по 18-летним студентам, изучающим информатику. Затем они были сопоставлены с результатами GCSE по информатике студентов за 2 года до этого, используя их уникальный идентификатор студента.
Доля студентов GCSE по информатике, которые продолжили сдавать экзамены уровня A по тому же предмету, подсчитывалась в каждом году. Также подсчитывалось обратное, то есть какая доля студентов уровня A ранее сдавала экзамены GCSE.
Для целей данного анализа оценки учащихся на уровне A были преобразованы в числовые значения, а оценки от A* до E были преобразованы в числовую шкалу от 6 до 1 соответственно. Для тех, кто сдавал уровень A, в каждом году рассчитывалась средняя оценка уровня A для учащихся с разными оценками GCSE. Мы также рассчитали долю учащихся, получивших как минимум оценку C на уровне A, для учащихся с каждой оценкой GCSE. Затем средняя оценка, полученная учащимися на GCSE, была рассчитана для учащихся, получивших разные оценки A level.
Для этих анализов были исключены студенты, которые сдавали GCSE в центре, предлагающем квалификацию впервые. Мы включаем только данные студентов, сдававших GCSE до 2017 года, поскольку после этого студенты получили бы оценки уровня A на основе суждений учителей из-за отмены экзаменов во время пандемии.
Наконец, мы создали линейную модель для изучения взаимосвязи между GCSE и оценкой по информатике уровня A с течением времени. Модель приняла следующий вид:
y ij = β 0 + β 1 x 1ij + β 2 x 2ij + β 3 X ij + u j + € ij
В этой модели зависимой переменной была оценка уровня A (y), ключевым предиктором был год (x 1 ), а оценка студентов GCSE по информатике была включена в качестве ковариата (x 2 ). Модель также включала ряд контрольных переменных (X) для предшествующего уровня KS2, этнической принадлежности, пола, статуса SEN, права на FSM, языка общения и типа центра. Случайный эффект был включен для учета кластеризации студентов в центрах (u). Это необходимо для контроля того факта, что результаты студентов в одном и том же центре не являются независимыми друг от друга, и, следовательно, предотвращает переоценку эффектов модели.
Если мы увидим, что предполагаемая оценка уровня A из модели для каждого года увеличивается с течением времени (при сохранении стабильных результатов GCSE по информатике), это будет означать, что учащиеся, набравшие схожий балл GCSE, учатся лучше на уровне A. Для этого анализа мы включаем только 4 года для тех, кто сдавал свои GCSE в период с 2014 по 2017 год, из-за небольшого количества учащихся, доступных для анализа до 2014 года.
Результаты
Таблица 8. Процент учащихся, изучавших информатику на уровне A, которые ранее получили сертификат GCSE по информатике.
Год сдачи экзамена A level | N сдал экзамен уровня A | N ранее сдавал экзамены GCSE | Процент ранее сдававших GCSE |
---|---|---|---|
2014 | 3,781 | 234 | 6.2% |
2015 | 4,883 | 511 | 10,5% |
2016 | 5,473 | 1,546 | 28,2% |
2017 | 7,289 | 3,776 | 51,8% |
2018 | 9,259 | 6,240 | 67,4% |
2019 | 10,076 | 7,287 | 72.3% |
Таблица 9. Процент учащихся, сдававших экзамен GCSE по информатике, которые затем продолжили изучать информатику на уровне A.
Год сдачи GCSE | N сдал экзамен GCSE | N впоследствии сдал экзамен уровня A | Процент впоследствии сдавших экзамены уровня А |
---|---|---|---|
2012 | 1,745 | 234 | 13,4% |
2013 | 4,179 | 511 | 12.2% |
2014 | 16,011 | 1,546 | 9,7% |
2015 | 33,773 | 3,776 | 11.2% |
2016 | 61,751 | 6,240 | 10.1% |
2017 | 67,374 | 7,287 | 10,8% |
Как показано в Таблице 8, доля студентов, изучающих информатику уровня A, которые ранее закончили GCSE, со временем увеличилась с 6,2% в 2014 году до 77,2% в 2020 году. Это может отражать увеличение числа поступающих на курс GCSE по информатике за этот период. Однако обратное неверно, и доля студентов, которые прошли курс GCSE по информатике и продолжают изучать A-уровень, в целом осталась стабильной (Таблица 9).
Таблица 10. Средний балл уровня A для учащихся, получающих разные оценки GCSE с течением времени. Значения из ячеек с менее чем 100 учащимися были удалены (отображаются как «n/a»). Год указывает год, когда учащиеся сдавали GCSE.
Оценка GCSE | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 |
---|---|---|---|---|---|---|
А* | н/д | н/д | 4.52 | 4.60 | 4.62 | 4.60 |
А | н/д | 3.57 | 3.52 | 3.46 | 3.42 | 3.53 |
Б | н/д | н/д | 2.28 | 2.46 | 2.45 | 2.52 |
С | н/д | н/д | н/д | 1.77 | 1.74 | 1.81 |
Д | н/д | н/д | н/д | н/д | н/д | 1.65 |
Э | н/д | н/д | н/д | н/д | н/д | н/д |
Таблица 11. Доля учащихся, получивших по крайней мере оценку C на уровне A, среди учащихся, получающих разные оценки GCSE с течением времени. Значения из ячеек с менее чем 100 учащимися были удалены (отображаются как «n/a»). Год указывает год, когда учащиеся сдавали GCSE.
Оценка GCSE | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 |
---|---|---|---|---|---|---|
А* | н/д | н/д | 0,942 | 0,963 | 0,965 | 0.960 |
А | н/д | 0,795 | 0,792 | 0,788 | 0,780 | 0,811 |
Б | н/д | н/д | 0,429 | 0,476 | 0,474 | 0,509 |
С | н/д | н/д | н/д | 0,268 | 0,252 | 0,261 |
Д | н/д | н/д | н/д | н/д | н/д | 0,284 |
Э | н/д | н/д | н/д | н/д | н/д | н/д |
В таблицах 10 и 11 представлены средние полученные оценки уровня A и доля учащихся, достигших оценок уровня A, C или выше, в зависимости от полученных оценок GCSE. Эти анализы не показывают каких-либо четких закономерностей изменения взаимосвязи между результатами GCSE и уровня A с течением времени. Есть некоторые слабые признаки того, что те, кто получил оценки A, B или C на GCSE в 2017 году, могли иметь более высокие достижения в области компьютерных наук, чем те, кто получил A, B или C в 2016 году. Это связано с тем, что, как показано в таблице 10, они получили немного более высокую среднюю оценку уровня A, и их вероятность получить по крайней мере оценку C на уровне A увеличилась. Однако в период с 2013 по 2016 год учащиеся, получившие оценку A на GCSE, получали более низкие средние оценки уровня A каждый год, что может указывать на то, что более успешные учащиеся на GCSE на самом деле имели более низкие достижения с течением времени.
Таблица 12. Средний балл GCSE учащихся, получающих разные оценки на уровне A. Значения из ячеек с менее чем 100 учащимися были удалены (отображаются как «n/a»). Год указывает год, когда учащиеся сдавали GCSE.
Уровень А | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 |
---|---|---|---|---|---|---|
А* | н/д | н/д | н/д | н/д | 7.80 | 7.74 |
А | н/д | н/д | 7.43 | 7.43 | 7.42 | 7.40 |
Б | н/д | н/д | 7.09 | 6.97 | 6.96 | 6.91 |
С | н/д | н/д | 6.64 | 6.51 | 6.58 | 6.43 |
Д | н/д | н/д | 6.37 | 6.20 | 6.18 | 6.06 |
Э | н/д | н/д | н/д | 5.76 | 5.97 | 5.80 |
Таблица 12 показывает средний балл учащихся GCSE, достигших каждой оценки на уровне A. Здесь есть некоторые признаки того, что учащиеся, получившие более высокие оценки уровня A в 2017 году, имели немного более низкие средние баллы GCSE, чем в предыдущие годы, по всем классам. Это может указывать на то, что учащиеся, получившие эти оценки, имели более высокие достижения в области компьютерных наук, чем в предыдущие годы. Например, в период с 2014 по 2017 год средний балл GCSE учащихся, получивших B на уровне A, снизился с 7,09 (чуть выше A на GCSE) до 6,91 (высокий B на GCSE). Это может означать, что в среднем учащиеся с более низкими оценками GCSE демонстрируют тот же уровень способностей в области компьютерных наук, что и те, кто получил немного более высокие оценки в предыдущие годы, что отражено в их оценке уровня A.
На рисунке 13 показаны высокоуровневые выходные данные линейной модели. Они показывают изменения в оценках уровня A, полученных учащимися, с учетом различий в успеваемости по KS2, типе центра и характеристиках студенческого прошлого между годами. Полные выходные данные модели можно увидеть в приложении A. Результаты линейной модели показали некоторые признаки того, что учащиеся в 2017 году, получившие ту же оценку GCSE по информатике, что и в 2014 году, получили более высокую оценку уровня A примерно на 0,1 балла (β = 0,107, p < 0,05). Учащимся в 2014 году необходимо было бы иметь оценку на 0,13 выше по информатике GCSE (по шкале от A* до G), чтобы получить ту же оценку уровня A, что и аналогичные учащиеся в 2017 году. Пропорционально это преобразуется примерно в 0,15 балла по шкале от 9 до 1. Однако рисунок 13 показывает, что эффект также не является явно линейным после учета других факторов. За исключением описанной разницы между 2017 и 2014 годами, принимая во внимание неопределенность в модели, четкой тенденции с течением времени не прослеживается.
Рисунок 13. Предельные эффекты модели линейной регрессии для студентов контрольной группы по годам.
Краткое содержание
Целью анализа, представленного в этом разделе, было определить, изменилась ли связь между успеваемостью учащихся в области компьютерных наук GCSE и их успехами в области компьютерных наук уровня A с течением времени. Подводя итог, вышеприведенный анализ показывает некоторые доказательства того, что учащиеся с аналогичной оценкой GCSE и другими характеристиками с течением времени показали лучшие результаты на уровне A. Это может указывать на то, что эти учащиеся более способны в области компьютерных наук, что позволяет предположить, что стандарт GCSE мог стать более сложным, однако эти эффекты незначительны. Как обсуждалось выше, эта интерпретация основана на предположении, что стандарт уровня A не изменился. Эти результаты также могут указывать на изменения в политике поступления в центры на их курсы уровня A.
Strand 1. Анализ 5. Моделирование прогнозов
Цель
Как обсуждалось во введении, статистические прогнозы на основе предыдущих достижений регулярно используются для поддержки установления границ оценок каждой серии экзаменов, наряду с экспертными оценками и другими техническими доказательствами. Подробности этого подхода описаны в разделе «Операционализация установления и поддержания стандартов». Ключевое предположение этого метода заключается в том, что когорта студентов в текущем году аналогична когорте студентов, которые получили квалификацию в базовом году, во всех отношениях, которые могли бы повлиять на их результаты, за исключением распределения их предыдущих достижений. Следовательно, мы можем обоснованно ожидать, что связь между предыдущими достижениями и результатами будет в среднем одинаковой.
Доказательства, обсуждаемые в Анализе 2 Strand 1, описывают обстоятельства, которые привели к изменению отношения добавленной стоимости в компьютерных науках GCSE с течением времени. Целью этой части анализа является количественная оценка влияния этих изменений с учетом изменения в распределении предшествующих (или текущих) достижений когорт.
Для этого анализа мы создаем прогнозы на основе разных базовых лет. Мы создаем 2 набора прогнозов, учитывая предыдущие достижения студентов (баллы KS2) и текущие достижения (средний балл GCSE) соответственно. Если есть большие различия в прогнозах, созданных в зависимости от базового года, это может указывать на то, что стандарты изменились между годами. Однако это также может указывать на то, что изменились другие факторы, которые могут повлиять на результаты, такие как состав когорты или время обучения, отведенное на предмет.
Еще один фактор, который мы можем попытаться контролировать здесь, — это то, насколько хорошо знакомы учителя с квалификацией. Как обсуждалось ранее, результаты центров, впервые принимающих студентов, могут быть ниже, если студенты в них менее подготовлены к оценке. Поэтому мы рассмотрим влияние исключения этих «новых» центров из сгенерированных прогнозов, поскольку эти центры могут иметь иное отношение добавленной стоимости.
Метод
Мы рассчитали прогнозы, используя ряд базовых лет (с 2012 по 2018 год), чтобы предсказать результаты в 2019 году, но в остальном следуя той же методологии, которую обычно используют АО.
В 2015 году около 20% когорты не имели данных о предыдущих достижениях KS2 (из-за бойкота оценок KS2 в 2010 году), что означает, что использование этой группы в качестве справочной информации для прогнозов на основе предыдущих достижений может быть менее надежным. Поэтому было создано 2 набора прогнозов. Первый набор прогнозов включал всех 16-летних учащихся с данными о предыдущих достижениях, за исключением учащихся в селективных и независимых центрах. Это типичный подход, используемый при прогнозировании GCSE на практике, поскольку у учащихся в селективных и независимых центрах соотношение предыдущих достижений и результатов GCSE отличается от других центров. Второй набор прогнозов был создан с использованием текущих достижений (то есть среднего GCSE), а не предыдущих достижений, и включал всех 16-летних учащихся, которые сдали не менее 3 экзаменов GCSE. Второй набор прогнозов, таким образом, основан на связи между средней оценкой GCSE студента по другим предметам, которые он изучал одновременно, и его оценкой по информатике. Для этого анализа были включены студенты всех типов центров.
Нормализованный балл предшествующего достижения KS2 был рассчитан для каждого студента, повторяя процесс расчета прогнозов на основе предшествующего достижения, используемых при награждении. Похожий процесс был использован для получения балла «текущего достижения» на основе среднего балла GCSE студентов (преобразованного в шкалу 8 к 1) по всем другим предметам, которые каждый студент изучал на GCSE.
Для каждого года нормализованные предыдущие или текущие баллы успеваемости делились на 10 равных децилей на основе результатов для всей когорты GCSE. Для каждого базисного года доля учащихся в каждом дециле, достигших каждой оценки по информатике GCSE, рассчитывалась в матрице результатов. Затем для 2019 года мы рассчитали, сколько учащихся попало в каждый дециль успеваемости. Затем матрица результатов использовалась для прогнозирования того, сколько учащихся в каждом дециле в 2019 году получат каждую оценку, на основе пропорций в базисном году. Затем количество учащихся, которые, как прогнозировалось, получат каждую оценку, суммировалось по всем децилям и использовалось для расчета совокупного процентного прогнозируемого результата в оценках A/7, C/4 и G/1.
Наконец, на основе результатов других анализов и различий, наблюдаемых в моделях между новыми и существующими центрами, был составлен набор прогнозов, исключающих «новые» центры как в базовом году, так и в текущем году (2019) для каждого прогноза. Новые центры были определены как те, которые впервые вошли в квалификацию в анализируемом году.
Результаты
Прогнозы, основанные на предыдущих достижениях
Таблица 13. Смоделированные прогнозы на 2019 год на основе разных базовых лет – только сопоставленные кандидаты, без учета выборочных и независимых центров. «Разница» указывает разницу в процентных пунктах между каждым прогнозом и фактическими результатами в 2019 году.
Год отчёта | Совпадающая запись | Накопленный % Прогнозируемый A/7 | Кумулятивный % прогнозируемый C/4 | Накопленный % прогнозируемый G/1 | Разница А/7 | Разница С/4 | Разница G/1 |
---|---|---|---|---|---|---|---|
2013 | 3,210 | 17.3 | 59.8 | 96.3 | -1.0 | 0.0 | -0,5 |
2014 | 13,100 | 18.4 | 61,8 | 97.0 | 0.2 | 2.0 | 0.3 |
2015 | 20,869 | 17.6 | 62.0 | 97.4 | -0,7 | 2.1 | 0,6 |
2016 | 53,297 | 18.1 | 59.0 | 96.1 | -0.1 | -0,8 | -0,6 |
2017 | 58,042 | 17.9 | 58.5 | 96.0 | -0,4 | -1.4 | -0,7 |
2018 | 59,718 | 18.1 | 59.2 | 96.7 | -0.1 | -0,7 | -0.1 |
2019 | 62,287 | 18.3 | 59.8 | 96.7 | 0.0 | 0.0 | 0.0 |
Таблица 14. Смоделированные прогнозы на 2019 год на основе разных базовых лет — подобранные студенты, за исключением студентов в новых центрах и выборочных и независимых центрах. «Разница» указывает разницу в процентных пунктах между каждым прогнозом и фактическими результатами в 2019 году.
Год отчёта | Совпадающая запись | Накопленный % Прогнозируемый A/7 | Кумулятивный % прогнозируемый C/4 | Накопленный % прогнозируемый G/1 | Разница А/7 | Разница С/4 | Разница G/1 |
---|---|---|---|---|---|---|---|
2013 | 1,116 | 21.5 | 65,7 | 97,8 | 3.0 | 5.5 | 1.0 |
2014 | 3,601 | 22.7 | 66.7 | 97.3 | 4.2 | 6.6 | 0,5 |
2015 | 10,450 | 19.3 | 64,8 | 97.7 | 0,8 | 4.6 | 0.9 |
2016 | 33,555 | 20.1 | 62.0 | 96.9 | 1.7 | 1.9 | 0.1 |
2017 | 50,693 | 18.4 | 59.1 | 96.1 | -0.1 | -1.1 | -0,7 |
2018 | 56,031 | 18.2 | 59.4 | 96.7 | -0,2 | -0,8 | -0.1 |
2019 | 59,047 | 18.5 | 60.2 | 96.8 | 0.0 | 0.0 | 0.0 |
Приведенный выше анализ показывает, что при включении всех учащихся прогнозы на основе предыдущих достижений, основанные на результатах 2014 года, предполагают результаты примерно на 2 п. п. выше в классе C/4, чем фактические результаты в 2019 году (таблица 13). Разница в классах A/7 и G/1 была намного меньше и менее последовательной между годами. Когда учащиеся в центрах, которые никогда ранее не предлагали GCSE по информатике, были исключены, размер разницы увеличивался в большинстве лет (таблица 14). Когда 2014 год использовался в качестве базового года, прогнозы были почти на 7 п. п. выше в классах C/4 и на 4 п. п. выше в A/7, чем фактические результаты в 2019 году. Это говорит о том, что учащиеся в новых центрах, как правило, получают в среднем более низкие результаты GCSE по сравнению с их предыдущими достижениями, и если бы их исключили, то прогнозы для не новых центров были бы выше.
Прогнозы на основе параллельных достижений
Таблица 15. Смоделированные прогнозы на 2019 год на основе разных базовых лет – все студенты. «Разница» указывает разницу в процентных пунктах между каждым прогнозом и фактическими результатами в 2019 году.
Год отчёта | Совпадающая запись | Накопленный % Прогнозируемый A/7 | Кумулятивный % прогнозируемый C/4 | Накопленный % прогнозируемый G/1 | Разница А/7 | Разница С/4 | Разница G/1 |
---|---|---|---|---|---|---|---|
2013 | 3,756 | 23.3 | 65.9 | 97.1 | 1.9 | 3.3 | 0.3 |
2014 | 15,092 | 23.5 | 65.3 | 97.1 | 2.1 | 2.7 | 0.3 |
2015 | 31,928 | 22.2 | 65.3 | 97.3 | 0,8 | 2.7 | 0,5 |
2016 | 59,334 | 22.5 | 62,5 | 96.4 | 1.0 | -0.1 | -0,4 |
2017 | 65,897 | 21.9 | 62.0 | 96.3 | 0.4 | -0,6 | -0,5 |
2018 | 68,966 | 21.7 | 62.9 | 96.9 | 0.2 | 0.3 | 0.1 |
2019 | 74,530 | 21.5 | 62.6 | 96.8 | 0.0 | 0.0 | 0.0 |
Таблица 16. Смоделированные прогнозы на 2019 год на основе разных базовых лет — без учета студентов в новых центрах. «Разница» указывает разницу в процентных пунктах между каждым прогнозом и фактическими результатами в 2019 году.
Год отчёта | Совпадающая запись | Накопленный % Прогнозируемый A/7 | Кумулятивный % прогнозируемый C/4 | Накопленный % прогнозируемый G/1 | Разница А/7 | Разница С/4 | Разница G/1 |
---|---|---|---|---|---|---|---|
2013 | 1,530 | 26.3 | 70.0 | 97,5 | 4.8 | 7.2 | 0,6 |
2014 | 4,612 | 27.6 | 70.1 | 97.4 | 6.1 | 7.3 | 0,5 |
2015 | 16,309 | 24.3 | 68.0 | 97,8 | 2.8 | 5.2 | 0.9 |
2016 | 37,995 | 24.2 | 65.0 | 97.1 | 2.7 | 2.2 | 0.3 |
2017 | 57,537 | 22.1 | 62.2 | 96.4 | 0,6 | -0,6 | -0,4 |
2018 | 64,507 | 21.5 | 62.9 | 96.9 | 0.0 | 0.1 | 0.0 |
2019 | 69,949 | 21.5 | 62.8 | 96.8 | 0.0 | 0.0 | 0.0 |
Прогнозы на основе текущих достижений показывают схожую картину с прогнозами на основе предыдущих достижений, но с немного более высокими прогнозами, чем те, которые были получены с использованием предыдущих достижений. При включении всех центров прогнозы на 2019 год, основанные на результатах 2014 года, были примерно на 3 п. п. выше для класса C/4 и на 2 п. п. выше для класса A/7, чем фактические результаты (таблица 15). После того, как новые центры были удалены, этот прогноз был примерно на 7 п. п. выше фактических результатов для класса C/4 и примерно на 6 п. п. выше фактических результатов для класса A/7 (таблица 16).
Краткое содержание
Эти анализы показывают, что прогнозы, основанные на результатах 2014 года, были бы выше фактических результатов в 2019 году, независимо от того, основаны ли прогнозы на предыдущих достижениях или текущих достижениях. Это указывает на то, что соотношение добавленной стоимости изменилось таким образом, что для студентов, изучающих информатику GCSE, со временем наблюдается более низкая связь добавленной стоимости, то есть те же предыдущие или текущие достижения связаны с более низкими оценками в 2019 году по сравнению с 2014 годом. Кроме того, размер этого эффекта увеличился, когда были удалены новые центры. Это говорит о том, что студенты в новых центрах, как правило, показывали худшие результаты, чем студенты в других центрах, которые имели аналогичные предыдущие или текущие достижения.
На практике прогнозы используются только для руководства присуждением наград, и поэтому нельзя предположить, что другой прогноз привел бы к другим результатам, особенно в те годы, когда экзаменаторы рекомендовали границы оценок ниже прогнозов. Однако невозможно узнать, как различные статистические данные могли повлиять на окончательные решения экзаменаторов в конкретном году.
Также стоит рассмотреть, была ли когорта в каждом базисном году достаточно похожа на когорту в «текущем» году (2019), чтобы ожидать аналогичного отношения добавленной стоимости. Описательный анализ, представленный ранее, показал, что с 2014 года в когорте произошло большое количество изменений. Эти изменения могли привести к законным различиям в отношении добавленной стоимости с течением времени. Базисный год для прогнозов необходимо тщательно продумать, чтобы убедиться, что когорта является репрезентативной для текущего года. Большее количество лет между базисным годом и текущим годом приводит к более высокой вероятности того, что когорта, а следовательно, и результаты, могли измениться по законным причинам.
Разделение этих законных изменений в результатах от незаконных является сложной задачей. Поэтому в следующем разделе мы проведем более сложное моделирование, направленное на контроль некоторых из этих потенциально запутывающих эффектов.
Направление 1. Анализ 6. Моделирование результатов с течением времени
Цель
В этом разделе мы представляем ряд моделей результатов по информатике GCSE в каждом году, которые, как и в предыдущем анализе, контролируют текущие или предыдущие достижения, а также множество других характеристик студентов и центров, которые могут быть связаны с результатами. Цель этого моделирования — выделить некоторые факторы, которые могут быть связаны с изменениями результатов с течением времени, но которые не подходят для включения в статистические прогнозы, чтобы определить, можно ли разумно объяснить изменения результатов этими факторами.
В первую очередь мы контролировали предыдущие или текущие достижения студентов, однако мы также контролировали другие характеристики студентов, которые могут быть связаны с результатами. Мы рассчитали как модель оценки GCSE по линейной шкале, так и модели вероятности того, что студенты получат по крайней мере оценку A/7, оценку C/4 или оценку G/1. Если анализ показывает, что результаты различались между годами, после контроля других переменных, которые могут быть связаны с результатами, это может означать, что стандарты изменились между годами.
Однако, как обсуждалось ранее, могут быть и другие факторы, влияющие на результаты с течением времени, которые напрямую не связаны с наблюдаемыми характеристиками студентов. Поэтому мы стремимся здесь контролировать 2 дополнительных фактора, которые могут быть связаны с результатами. Во-первых, опыт центров по предоставлению квалификации. Мы контролируем это, удаляя центры, принимающие студентов только на первый или второй год из анализа. Во-вторых, результаты могут отличаться, если есть качественные различия между центрами, принимающими студентов в разные годы. Поэтому мы проводим некоторые дополнительные модели, включающие только один и тот же набор центров в каждом году. Если в этих моделях мы все еще видим изменение результатов с течением времени, это говорит о том, что произошло изменение стандартов, которое нелегко объяснить другими факторами.
Метод
Была создана числовая переменная оценки, преобразующая оценки A* в оценки G и оценки 9 в 1 в 8-балльную шкалу (см. Таблицу 7 в Анализе Strand 1 3) вместе с бинарными переменными, указывающими, получил ли каждый студент по крайней мере оценку G/1, C/4 или A/7. Была также создана переменная, указывающая, как долго каждый центр предоставлял GCSE computer science, путем расчета количества лет с тех пор, как студент в этом центре впервые получил оценку. Затем это было преобразовано в бинарную переменную (новые/не новые центры). Для этого анализа был использован немного более консервативный подход к предыдущим анализам, и новые центры были классифицированы как те, которые принимают студентов на первый или второй год.
Первичные модели использовали линейную зависимость с числовой оценкой GCSE учащихся в качестве целевой переменной и серией моделей логистической регрессии, оценивающих вероятность получения учащимся по крайней мере каждой оценки – G/1, C/4 и A/7. Все модели включали «Год» в качестве ключевого предиктора. Модели были разработаны с использованием как предшествующего уровня знаний (стандартизированный балл KS2), так и текущего уровня знаний (стандартизированный средний балл GCSE). Эти переменные были опробованы как непрерывные переменные и как категориальные переменные (то есть децили уровня знаний), все из которых дали схожие результаты, однако непрерывные модели привели к лучшему соответствию модели. Данные о предыдущем уровне знаний отсутствовали примерно для 20% учащихся в 2015 году из-за бойкота оценок KS2 5 годами ранее. Поэтому мы сосредоточимся на результатах моделей текущего уровня знаний в основном тексте и рисунках (см. приложение B для всех полных результатов модели).
Все модели контролировали другие характеристики учащихся, а именно: пол (мужской/женский), статус SEN (SEN, без SEN, отсутствует), право на FSM (да, нет, отсутствует), основной язык общения (английский, другой, отсутствует), этническая группа (азиатка, чернокожая, китайская, смешанная, белая, другой, отсутствует) и тип центра (колледж, селективный, независимый, основной, отсутствует). Случайный эффект номера центра был включен во все модели для контроля кластеризации на уровне центра. Модели включали только 16-летних учащихся с действительными оценками, только из Англии, с доступными данными о предыдущих или текущих достижениях (в зависимости от модели). См. Таблицу 17 для сводки выборки, включенной в анализ. Все модели контролировали другие характеристики учащихся, а именно: пол (мужской/женский), статус SEN (SEN, без SEN, отсутствует), право на FSM (да, нет, отсутствует), основной язык общения (английский, другой, отсутствует), этническая группа (азиатка, чернокожая, китайская, смешанная, белая, другой, отсутствует) и тип центра (колледж, селективный, независимый, основной, отсутствует). Случайный эффект номера центра был включен во все модели для контроля кластеризации на уровне центра. Модели включали только 16-летних студентов с действительными оценками, только из Англии, с доступными данными о предыдущих или текущих достижениях (в зависимости от модели). См. Таблицу 17 для сводки выборки, включенной в анализ.
Таблица 17. Сводка выборки, использованной для моделирования результатов с течением времени.
Год | N студентов — Модели предыдущих достижений (все центры) | N студентов — Модели параллельного обучения (все центры) |
---|---|---|
2012 | 1,583 | 1,614 |
2013 | 3,876 | 3,756 |
2014 | 14,768 | 15,092 |
2015 | 23,322 | 31,928 |
2016 | 57,163 | 59,334 |
2017 | 62,321 | 65,897 |
2018 | 65,167 | 68,966 |
2019 | 68,814 | 74,530 |
Результаты
Большинство моделей показали, что «Год» имел статистически значимое влияние на вероятность получения учащимися ключевых оценок, за исключением моделей в классе G/1 (см. Таблицу 18). Добавление «Года» к моделям также улучшило соответствие модели, однако дополнительная объяснительная сила была относительно небольшой (увеличение R 2 /псевдо-R 2 между 0,1pp и 0,9pp). Это, вероятно, означает, что основным предиктором результатов учащихся на экзамене являются их собственные способности, а другие переменные имеют лишь слабую связь с результатами в сравнении.
Для каждой из моделей мы оцениваем, какой будет разница в средней оценке, предсказанной моделью, или вероятность получения ключевых оценок для всей когорты студентов, включенных в модель в 2019 году, используя расчетные коэффициенты модели для 2014 года. Эта оценка учитывает влияние изменений в распределениях различных подгрупп студентов, предыдущих достижений и типов центров и, таким образом, дает оценку размера влияния «года» на фактические результаты (см. Таблицу 18).
Таблица 18. Сводка эффектов модели года из различных моделей с использованием параллельных достижений.
Модель | Ограничение | Коэффициент 2019 года [Ref 2014] (SE) | Расчетная разница в результатах по сравнению с 2014 годом, прогнозируемая для когорты 2019 года |
---|---|---|---|
Линейный | Все центры | -0,12 (0,01)*** | -0,11 |
Линейный | За исключением новых центров | -0,41 (0,03)*** | -0,41 |
Линейный | только центры 2014 года | -0,31 (0,03)*** | -0,31 |
Линейный | только центры 2015 года | -0,33 (0,02)*** | -0,33 |
Класс А/7 | Все центры | -0,02 (0,03) | -0,17пп |
Класс А/7 | За исключением новых центров | -0,48 (0,08)*** | -3.47пп |
Класс А/7 | только центры 2014 года | -0,40 (0,10)*** | -4.52пп |
Класс А/7 | только центры 2015 года | -0,30 (0,06)*** | -3.40пп |
Класс C/4 | Все центры | -0,06 (0,03)* | -0,76пп |
Класс C/4 | За исключением новых центров | -0,77 (0,10)*** | -8.72пп |
Класс C/4 | только центры 2014 года | -0,39 (0,11)*** | -4.43пп |
Класс C/4 | только центры 2015 года | -0,57 (0,07)*** | -5.60пп |
Г/1 класс | Все центры | +0,09 (0,07) | -0,15пп |
Г/1 класс | За исключением новых центров | -0,92 (0,33)** | -1.17пп |
Г/1 класс | только центры 2014 года | -0,27 (0,39) | -0,26пп |
Г/1 класс | только центры 2015 года | -0,22 (0,20) | -0,16пп |
Примечание. Статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Примечательно, что во всех случаях исключение новых центров увеличивает предполагаемый размер эффекта «года». Это говорит о том, что включение этих центров могло скрыть потенциальное изменение стандартов. В разделах ниже подробно обсуждаются различные модели. Цифры показывают прогнозируемую среднюю оценку или прогнозируемую вероятность получения ключевой оценки или выше в каждом году для учащихся в контрольной группе (то есть учащихся со средним баллом успеваемости, белых, мужчин, не имеющих права на FSM, говорящих по-английски, не зарегистрированных как SEN и посещающих обычную школу).
Все модели центра
Начнем с рассмотрения линейных моделей. Эти модели основаны на 8-балльной шкале, эквивалентной A* до G.
На рисунке 14 показаны выходные данные модели, включающие всех 16-летних учащихся из всех центров, а также дается представление о предполагаемой средней оценке аналогичных учащихся в контрольной группе за каждый год после учета других факторов.
Рисунок 14. Расчетная средняя оценка для студентов в контрольной группе для студентов со средними показателями успеваемости GCSE в каждом году. Включает все центры.
На рисунке 14 можно увидеть четкую закономерность снижения среднего балла между 2015 и 2018 годами. Это после учета характеристик учащихся, типа центра и достижений учащихся в других GCSE. Хотя этот эффект относительно невелик, со средней оценочной разницей в результатах в 0,12 балла между 2014 и 2019 годами для среднестатистического успевающего ученика, это все же заметное изменение, представляющее собой более 1 из 10 учащихся, получивших оценку ниже в 2019 году по сравнению с 2014 годом. Однако эта модель не учитывает эффекты, обсуждавшиеся ранее, которые могут повлиять на результаты; являются ли центры новыми для предоставления квалификации или неизмеренные различия между центрами в разные годы, такие как изменения в качестве преподавания. Поэтому для следующего набора моделей мы сначала исключаем учащихся в центрах, которые набирали учащихся менее 2 лет назад.
Модель без учета новых центров
Рисунок 15. Расчетная средняя оценка для студентов в контрольной группе для студентов со средними показателями успеваемости на GCSE в каждом году. Включает только студентов в центрах, предлагающих компьютерные науки GCSE на третий год или более.
Рисунок 15 показывает, что после исключения «новых» центров эффект снижения результатов становится более выраженным. Это говорит о том, что различное соотношение добавленной стоимости в этих центрах в сочетании с различным количеством новых центров в каждом году могло скрыть более существенный сдвиг в стандартах. Эта модель оценивает, что этот сдвиг приводит к разнице средней оценки в 0,41 балла (после преобразования в шкалу 9 к 1) между 2014 и 2019 годами.
Однако эта модель по-прежнему не учитывает потенциальные качественные различия между центрами, принимающими квалификацию в разные годы, например, связанные с качеством преподавания или ресурсами. Поэтому для окончательного набора моделей мы включаем только центры, принимающие студентов для получения квалификации в каждом году, который включен в модель. Для периода с 2014 по 2019 год это приводит к включению в анализ только 85 центров, поэтому мы повторяем анализ для центров, принимающих студентов каждый год с 2015 по 2019 год, что увеличивает выборку до 205 центров.
Модели ограничены одним и тем же набором центров в каждом году
Рисунок 16. Расчетная средняя оценка для студентов в контрольной группе для студентов со средними показателями успеваемости на GCSE в каждом году. Включает только студентов в центрах, предлагающих GCSE по информатике на третий год или более, которые зачисляли студентов в каждом году с 2014 по 2019.
Рисунок 17. Расчетная средняя оценка для студентов в контрольной группе для студентов со средними показателями успеваемости на GCSE в каждом году. Включает только студентов в центрах, предлагающих GCSE по информатике на третий год или более, которые зачисляли студентов в каждом году с 2015 по 2019.
Рисунок 16 и Рисунок 17 показывают, что даже когда анализ включает только центры, которые принимали студентов каждый год, предполагаемая средняя оценка все равно снижается между 2015 и 2017 годами в среднем примерно на 0,3 балла (см. Таблицу 18 выше). Это снижение не может быть объяснено эффектами, вызванными незнакомством центра, поскольку новые центры были исключены из модели, и также кажется маловероятным, что качество преподавания последовательно снижалось бы в этом же наборе центров с течением времени. Однако есть и другие факторы, которые могли измениться, такие как политика приема на предмет или факторы, связанные с подготовкой или мотивацией студентов в течение периода. Однако кажется маловероятным, что эти эффекты будут последовательными во всех центрах.
На рисунках 18 и 19 показаны результаты моделей логистической регрессии, оценивающих вероятность получения учащимися ключевых оценок A/7 и C/4 или выше. Как и в предыдущей модели, эти модели включают только центры с зачислением во все годы с 2015 по 2019, которые впервые приняли учащихся в 2012 или 2013 году. Мы не включили цифры для класса G/1 или модели для центров, принимающих учащихся каждый год между 2014 и 2019 годами, поскольку размеры выборки для этих моделей были небольшими, и поэтому модели были ненадежными.
Рисунок 18. Расчетная вероятность получения A/7 или выше для учащихся в контрольной группе для учащихся со средними показателями успеваемости GCSE в каждом году. Включает только учащихся в центрах, предлагающих GCSE по информатике в течение третьего года или более, которые зачисляли учащихся в каждом году с 2015 по 2019.
Рисунок 19. Расчетная вероятность получения C/4 или выше для учащихся в контрольной группе для учащихся со средними показателями успеваемости на GCSE в каждом году. Включает только учащихся в центрах, предлагающих GCSE по информатике на третий год или более, которые зачисляли учащихся в каждом году с 2015 по 2019.
Одинаковую картину снижения результатов можно увидеть как в классах A/7, так и C/4. Модели оценивают размер разницы как на 3,4 п. п. меньше учащихся, достигших A/7 в 2019 году по сравнению с 2015 годом, и на 5,6 п. п. меньше учащихся, достигших C/4. Интересно, что основное снижение происходит немного позже для класса A/7 (между 2016 и 2018 годами), тогда как для класса C/4 оно происходит между 2015 и 2017 годами.
Для класса G/1 моделирование не выявило последовательной статистически значимой разницы в вероятности получения учащимися класса G/1 между 2019 годом и предыдущими годами (таблица 18). Очень небольшое количество учащихся получают класс U, что означает, что последовательная оценка эффектов модели является сложной. Если эффект существует в этом классе, он, вероятно, очень мал, оценка для модели, включающей центры с записями между 2015 и 2019 годами, предложила результаты на -0,16пп ниже в 2019 году по сравнению с 2015 годом.
Краткое содержание
Подводя итог, эти анализы показывают, что после максимально возможного контроля изменений в характеристиках когорт, возможной неосведомленности учителей в новых центрах и изменений между группами центров, поступающих на квалификацию в разные годы, наблюдается тенденция к снижению результатов с течением времени. Это изменение сосредоточено вокруг границы класса C/4, с немного меньшим эффектом на границе класса A/7. В следующем разделе мы намерены провести аналогичный анализ, сосредоточившись на результатах на уровне центра с течением времени для центров, поступивших в смежные пары лет.
Направление 1. Анализ 7. Анализ общих центров
Цель
Хотя данные показывают, что результаты для отдельных центров из года в год различаются, ожидается, что в среднем в большом количестве центров результаты остаются довольно стабильными, когда стандарты поддерживаются, предполагая, что когорта студентов, поступающих из каждого центра, остается довольно стабильной. Школы или колледжи, которые предлагают одну и ту же квалификацию в течение 2 или более лет, называются «общими центрами», поскольку они являются центрами «в общем» в эти годы. Целью этого раздела является рассмотрение доказательств, касающихся поддержания стандартов с течением времени на основе изменений (или отсутствия изменений) в результатах для этих общих центров.
Как уже отмечалось ранее, мы сосредоточимся здесь на том, изменились ли результаты, и не будем рассматривать другие факторы, такие как качество работы студентов. Этот анализ основан на предположении, что центры обычно имеют схожие результаты между годами, отражая схожий уровень успеваемости студентов с течением времени. Там, где результаты меняются, ожидается, что это будет статистически случайным образом, то есть результаты некоторых центров растут, но уравновешиваются теми, где результаты падают. Это основано на предпосылке, что студенты, поступающие на квалификацию в один и тот же центр, будут похожи из года в год с точки зрения таких вещей, как социально-экономическое положение, мотивация и т. д. Это также предполагает, что факторы на уровне центра останутся стабильными из года в год (по крайней мере, в среднем), такие вещи, как политика поступления, обеспечение ресурсами и качество преподавания. Поэтому, если эти предположения верны, в среднем по популяции обычных центров, большая и постоянная разница между прогнозируемыми результатами обычных центров и процентом студентов, которые фактически получили каждую оценку в каждом году, может указывать на изменение стандартов.
Метод
Самый простой подход к анализу общих центров — рассмотреть все центры, которые предлагают квалификацию в паре смежных лет, и напрямую сравнить результаты за 2 года. Для этого простого подхода общих центров мы предполагаем, что распределение оценок (то есть доля студентов, достигших каждой оценки) остается в среднем одинаковым во всех включенных центрах.
Этот подход не учитывает никаких изменений в размере записи от отдельных центров. Например, если бы центры с более высокими показателями увеличили количество записей, а центры с более низкими показателями уменьшили количество записей, мы могли бы ожидать улучшения общих результатов. Поэтому мы можем рассчитать взвешенный анализ общих центров, взвесив результаты от отдельных центров, чтобы учесть такие изменения. В этом случае делается предположение, что распределение оценок остается неизменным в каждом центре независимо от изменений в размере записи.
Более сложная версия анализа общих центров учитывает изменение распределения предыдущих достижений между парами лет для центров, включенных в анализ. Это достигается путем применения методологии матрицы прогнозирования, аналогичной той, которая используется для помощи в установлении стандартов в GCSE и уровнях A, но применяется только к центрам в выборке. Это называется анализом общих центров «с поправкой на предыдущие достижения».
Учитывая, что мы смотрим исторически, мы также можем использовать четвертую альтернативу. Этот подход похож на анализ с поправкой на предшествующие достижения, но использует текущие достижения. Этот анализ с поправкой на сопутствующие достижения использует матрицу прогнозирования, основанную на центрах в выборке, но использует средний балл GCSE для группировки студентов по способностям вместо баллов за предшествующие достижения KS2.
Распространенное ограничение, применяемое к анализу общих центров, заключается в том, чтобы включать только «стабильные» общие центры. Обычно они классифицируются как центры с минимальным количеством студентов в каждом году и/или те, где количество студентов не изменилось более чем на определенный процент. Обоснование заключается в том, что мы можем ожидать, что результаты в этих центрах будут более последовательными, чем в других центрах. На практике эффективность этих ограничений для повышения точности прогнозирования требует тщательного рассмотрения. Предыдущий анализ показал, что потенциальное повышение точности, достигаемое за счет ограничения выборки более стабильными центрами, часто перевешивается потерей размера выборки (Бентон, 2013). Однако мы включаем их сюда для сравнения и потенциального контроля центров с большими изменениями в записях в первые годы квалификации, где это может иметь большее влияние.
Мы применили все вышеперечисленные методы для определения диапазона потенциальных прогнозируемых результатов для каждого года на основе каждого метода; простые общие центры, взвешенные общие центры, анализы с поправкой на предыдущие достижения и с поправкой на текущие достижения. Мы также выполнили каждый метод с различными уровнями ограничения выборки включенных центров. Для первоначального анализа мы включили все центры с записями в каждой паре последовательных лет. Для анализа «стабильных» общих центров мы выполнили 2 версии, первая ограничила выборку только центрами с минимум 10 студентами в каждой из пары анализируемых лет и чей записной лист не колебался более чем на 40% между первым и вторым годом, для второго «очень стабильного» анализа мы ограничили выборку центрами с минимум 20 студентами и чей записной лист колебался менее чем на 15%.
Для анализа предыдущих достижений мы исключили выборочные и независимые центры, поскольку у студентов этих центров, как правило, наблюдается разная связь между результатами KS2 и результатами GCSE. Студенты без предыдущих достижений или данных о текущих достижениях также были исключены из соответствующих анализов. Для этих анализов с поправкой на достижения в каждой паре лет первый год рассматривался как базовый. Здесь была применена стандартная методология для получения прогнозов на основе предыдущих достижений, но только для подмножества центров, определенных как общие по годам.
Для каждого анализа мы сравнили общие прогнозируемые центрами результаты с фактическими результатами в классах A/7, C/4 и G/1. Однако пары, в которых в выборке в любом году осталось менее 500 учащихся, были удалены, поскольку прогнозы вряд ли будут надежными. Таким образом, прогнозы в большинстве случаев охватывают изменения результатов в период с 2014 по 2019 год, за исключением анализов с использованием очень стабильных центров, которые включают период с 2015 по 2019 год, и анализа с поправкой на предыдущие достижения с очень стабильными центрами, который охватывает только период с 2016 по 2019 год.
Как и в предыдущем анализе, мы исключили центры, в которых студенты были включены в оценку менее чем за 2 года до «базового года» во всех методах, поскольку это период, когда их результаты с наибольшей вероятностью изменятся из-за пилообразного эффекта.
Результаты
На рисунках 20, 21 и 22 для каждого года показана разница между прогнозируемыми результатами общих центров и фактическими результатами для выборки центров, включенных в каждый анализ. Цифры накапливаются с течением времени, чтобы дать представление о возможном кумулятивном изменении стандартов с течением времени с 2014 года. Отдельная строка включена для комбинации каждого метода (простой, взвешенный, скорректированный по предыдущему достижению и скорректированный по текущему достижению) и каждого подхода к выборке (все общие центры, стабильные центры и очень стабильные центры). Затем в таблице 19 показана сводка по различным методам разницы между прогнозируемыми результатами и фактическими результатами в каждом году.
Рисунок 20. Кумулятивная разница между прогнозами общих центров и фактическими результатами с течением времени по методу общих центров. Оценка A/7.
Рисунок 21. Кумулятивная разница между прогнозами общих центров и фактическими результатами с течением времени по методу общих центров. Оценка C/4.
Рисунок 22. Кумулятивная разница между прогнозами общих центров и фактическими результатами с течением времени по методу общих центров. Класс G/1.
Таблица 19. Сводка общих анализов центров по всем методам, показывающая среднюю и медианную разницу в процентных пунктах между прогнозами и результатами в каждом году, а также кумулятивный эффект с 95% доверительными интервалами.
Оценка | Метод | 2014-2015 | 2015-2016 | 2016-2017 | 2017-2018 | 2018-2019 | Накопительный (2014-2019) |
---|---|---|---|---|---|---|---|
А/7 | иметь в виду | -0,5 | 0.4 | -0,8 | -1.0 | 0.4 | -1.3 |
А/7 | КИ | н/д | н/д | н/д | н/д | н/д | -2,5 до -0,1 |
А/7 | медиана | -0,8 | 0.4 | -0,7 | -1.0 | 0.4 | -1.9 |
С/4 | иметь в виду | -1.7 | -3.2 | -1.9 | 0.3 | 0.9 | -4.7 |
С/4 | КИ | н/д | н/д | н/д | н/д | н/д | -6,1 до -3,3 |
С/4 | медиана | -1.7 | -3.2 | -2.0 | 0.2 | 1.1 | -4.7 |
Г/1 | иметь в виду | -0,2 | -0,8 | -0,5 | 0,5 | 0.1 | -0,7 |
Г/1 | КИ | н/д | н/д | н/д | н/д | н/д | от -1,0 до -0,4 |
Г/1 | медиана | -0.1 | -0,6 | -0,4 | 0,5 | 0.1 | -0,7 |
Хотя существуют некоторые различия между различными методами общих центров, они представляют схожую картину. В классе A/7 результаты были немного ниже, чем прогнозировалось анализами общих центров в 2015, 2017 и 2018 годах, однако это было несколько компенсировано результатами, которые были выше прогнозируемых в 2016 и 2019 годах. Если мы суммируем оценки по всем годам, то результаты в 2019 году будут ниже где-то на 0,1–2,5 п. п., чем мы могли бы ожидать, если бы результаты центров оставались стабильными в течение изучаемого периода.
На уровне C/4 средний эффект по нашим различным методам предполагает, что результаты были ниже прогнозов в 2015, 2016 и 2017 годах примерно на 1,7 пп, 3,2 пп и 2 пп соответственно. В 2018 и 2019 годах результаты могли быть немного выше прогнозов, хотя и с некоторой дисперсией по методам. Это приводит к общей разнице результатов примерно на 3,3–6,1 пп ниже, чем можно было бы ожидать, если бы результаты центров оставались стабильными в период с 2014 по 2019 год.
В классе G/1 эффекты намного меньше. Анализ показывает, что результаты снова были ниже прогноза в 2016 и 2017 годах, хотя это было в основном компенсировано результатами, которые были выше прогноза в 2018 и 2019 годах. В целом, это говорит о небольшом отрицательном эффекте результатов, которые были примерно на -0,7 п. п. ниже прогноза к 2019 году.
Стоит отметить, что размер и даже направление этих эффектов несколько различались в зависимости от используемого метода общих центров. Цифры в таблице 19 представляют собой среднее значение по методам, тогда как отдельные методы предполагают больший или меньший эффект. Оценки варьировались от предположения, что совокупная разница в результатах в 2019 году была почти на 11 пп ниже прогнозов, до всего лишь на 1,9 пп ниже прогноза на уровне C/4. Для класса A/7 наблюдалось некоторое различие в направлении эффекта, при этом оценки варьировались от 4,2 пп ниже прогноза до 2,6 пп выше. Методы, включающие все центры, обычно давали более отрицательную оценку, чем только включающие стабильные центры.
Однако оценки по всем методам для кумулятивного изменения между 2014 и 2019 годами были почти единогласно отрицательными. Только простой метод общих центров, как для всех, так и для стабильных центров в классе A/7, предположил положительное изменение результатов относительно прогнозов общих центров, оценив результаты на 1,9 и 2,6 п. п. выше прогнозов соответственно.
Также стоит отметить, что хотя мы можем ожидать, что результаты останутся стабильными в среднем для центров с течением времени, всегда будут некоторые колебания в результатах. Это связано с тем, что несколько студентов всегда будут получать одну и ту же оценку в каждом году, поэтому может быть невозможно точно воспроизвести кумулятивные процентные результаты, даже если бы это было желательно.
Краткое содержание
В целом, эти результаты свидетельствуют о том, что с течением времени могли произойти изменения в стандартах, особенно в классе C/4. Анализ показал аналогичную предыдущему моделированию картину падения результатов в классе C/4 между 2015 и 2017 годами и в классе A/7 между 2016 и 2018 годами. Кажется маловероятным, что те же самые центры будут иметь результаты последовательно хуже в последующие годы предложения квалификации.
Одной из возможных причин может быть то, что центры, включенные в анализ, в последующие годы принимали в среднем учеников с более низкими результатами. Однако анализы с поправкой на предшествующие и текущие достижения должны были компенсировать изменения в общих способностях когорты, но все равно в целом показали снижение результатов. Количество учеников, поступающих в центры, также не увеличивалось последовательно между парами лет, что не говорит о том, что центры меняли свою политику приема и расширяли набор, что могло привести к тому, что менее способные ученики выбирали информатику (см. Таблицу 20).
Таблица 20. Количество центров и изменение количества студентов между каждой парой лет для анализа общих центров.
Группа | Ценить | 2014-2015 | 2015-2016 | 2016-2017 | 2017-2018 | 2018-2019 |
---|---|---|---|---|---|---|
Все центры | Изменение в общем объеме записи | 323 | 636 | -911 | -726 | 1,269 |
Все центры | N-центры | 85 | 196 | 652 | 1,278 | 1,994 |
Стабильные центры | Изменение в общем объеме записи | -12 | 51 | -113 | -262 | 179 |
Стабильные центры | N-центры | 40 | 108 | 353 | 666 | 1,020 |
Очень стабильные центры | Изменение в общем объеме записи | -7 | 30 | -35 | 1 | -18 |
Очень стабильные центры | N-центры | 10 | 41 | 147 | 225 | 374 |
Раздел 1. Анализ 8. Сравнительная оценка качества сценария
Цель
Все предыдущие направления работы использовали статистический подход к сравнению стандартов, фокусируясь на показателях результатов с течением времени. Целью этого направления работы было использовать другой подход, вместо этого сосредоточившись на стандарте производительности, то есть качестве работы, продемонстрированном студентами для получения ключевых оценок в каждом году. Если качество работы на границах оценок отличается между годами, это указывает на то, что стандарт производительности квалификации изменился.
Метод
Обзор
Это направление исследований использовало экспертов по предметам для комплексной оценки качества работы студентов и для сравнения качества работы студентов по разным оценкам с течением времени. Для облегчения этого суждения собирались у экспертов с использованием задачи парного сравнительного суждения (CJ). Сравнительное суждение позволяет нам собрать консенсусное мнение группы экспертов-судей, минимизируя при этом потенциальную предвзятость, вносимую взглядами отдельных судей. Метод требует, чтобы эксперты выносили относительные суждения о работе студентов, что, возможно, психологически проще и более интуитивно, чем вынесение абсолютных суждений о качестве.
В рамках этого исследования судьям были представлены пары примеров работ студентов в виде экзаменационных сценариев разных лет, и им был задан вопрос, какой сценарий был более качественным. Множественные сравнения между различными парами экзаменационных сценариев на основе целостного взгляда экспертов на качество студенческих работ позволяют построить шкалу «воспринимаемого качества». Местоположение каждого сценария на шкале воспринимаемого качества зависит как от доли раз, когда он «выиграл» и «проиграл» каждое парное сравнение, так и от местоположения сценариев, с которыми он сравнивался (Bramley, 2007). Если расстояние на этой шкале между двумя сценариями больше, это означает, что существует большая вероятность того, что сценарий с более высоким баллом будет оценен как имеющий более высокое воспринимаемое качество, чем сценарий с более низким баллом (Bramley & Oates, 2011).
В этом упражнении CJ эксперты оценивали качество работы в экзаменационных сценариях студентов на границе оценок A/7 или C/4 для одной экзаменационной работы, которая была в целом сопоставима до и после реформы. Учитывая, что спецификации изменились, было невозможно сравнить точно такой же экзамен с течением времени. Поэтому для облегчения сравнений были выбраны экзаменационные работы, которые были наиболее похожи по содержанию и структуре. Однако это означает, что необходима осторожность при интерпретации результатов до и после реформы, поскольку были некоторые изменения в содержании экзамена и в общей структуре квалификации. Оценки, не связанные с экзаменом, не были включены, поскольку не было компаратора после реформы, и из-за размера оценочных материалов они были сочтены неподходящими для включения в упражнение CJ. Подробная информация об экзаменах приведена в разделе материалов ниже. Цель состояла в том, чтобы определить, изменился ли стандарт производительности на границах оценок на экзамене с течением времени.
Материалы
Для этого упражнения были рассмотрены оценки от AO с 2 крупнейшими записями по информатике GCSE (AQA и OCR). До реформы (с 2011 по 2017 год) спецификация каждого AO включала один экзамен и либо один, либо два контролируемых оценивания. После реформы, после отмены оценки без экзамена, спецификация каждого AO включала 2 экзамена. Чтобы обеспечить сравнение до и после реформы, рассматривался только один из этих 2 постреформенных экзаменов. Для обоих AO один из постреформенных экзаменов был похож по содержанию и структуре на дореформенные экзамены, поэтому этот экзамен использовался для проведения наиболее обоснованного сравнения. Подробная информация об оценках включена в Таблицу 21.
Таблица 21. Подробности оценок GCSE по информатике до реформы (2012–2017) и после реформы (2018 и 2019). Оценки, включенные в упражнение CJ, выделены жирным шрифтом.
OCR дореформенный
Экзамен | Компьютерные системы и программирование | 40% от общего количества баллов GCSE, 1 час 30 минут, 80 баллов |
---|---|---|
Контролируемая оценка | Практическое исследование | 30% от общего объема GCSE, ~20 часов, 45 баллов |
Контролируемая оценка | Проект программирования | 30% от общего объема GCSE, ~20 часов, 45 баллов |
OCR после реформы
Экзамен | Компьютерные системы | 50% от общего количества баллов GCSE, 1 час 30 минут, 80 баллов |
---|---|---|
Экзамен | Вычислительное мышление, алгоритмы и программирование | 50% от общего количества баллов GCSE, 1 час 30 минут, 80 баллов |
AQA дореформенный
Экзамен | Основы вычислений | 40% от общего количества баллов GCSE, 1 час 30 минут, 84 балла |
---|---|---|
Контролируемая оценка | Практическое программирование | 60% от общего объема GCSE, ~50 часов, 126 баллов |
AQA после реформы
Экзамен | Письменная оценка | 50% от общего количества баллов GCSE, 1 час 30 минут, 80 баллов |
---|---|---|
Экзамен | Вычислительное мышление и решение проблем | 50% от общего количества баллов GCSE, 1 час 30 минут, 80 баллов |
Упражнение CJ включало студенческие сценарии по границам оценок от обоих AO для каждого года, когда оценки были доступны в период с 2011 по 2019 год. Спецификация OCR была впервые доступна в 2011 году, а спецификация AQA была впервые доступна в 2014 году, в результате чего было получено 15 наборов студенческих сценариев. Для каждого AO в каждом году студенческие сценарии запрашивались у AO. Было запрошено до 5 студенческих сценариев по каждой из границ классов A/7 и C/4 для каждой экзаменационной работы. Для OCR было доступно только 3 сценария по каждой границе в каждом году, а для AQA было доступно 5 сценариев в большинстве случаев (4 в одном случае). Были запрошены студенческие сценарии, которые, насколько это возможно, показали относительно равномерную или типичную производительность по всей работе.
Сценарии студентов были анонимизированы, чтобы удалить информацию, идентифицирующую студента, год и AO. Вся информация об оценках также была удалена из сценариев, и каждому из них был присвоен уникальный идентификатор. Этот идентификатор можно было сопоставить с пустыми экзаменационными листами и схемами оценок, которые также предоставлялись судьям (любая информация, идентифицирующая AO и год, также была удалена из них).
Судьи
Для выполнения задания были привлечены шестнадцать судей, все из которых имели опыт преподавания информатики GCSE. Первоначально судей набирали из списка специалистов по предметам Ofqual, а затем дополнительных судей набирали, связываясь напрямую с учителями. Судьям платили за их время.
Процедура судейства
Сначала судьи посетили ознакомительную встречу, где им рассказали о целях исследования, дали введение в сравнительное суждение и программное обеспечение, которое они будут использовать. После встречи им были отправлены подробные инструкции и доступ к судейской платформе и всем дополнительным материалам, которые хранились в защищенной онлайн-среде.
После встречи судьям было предложено ознакомиться с экзаменационными работами и схемами оценок для всех оценок, включенных в судейство. Затем их попросили дать оценку того, насколько требовательной, по их мнению, была каждая из отдельных экзаменационных работ по 7-балльной шкале, от значительно менее требовательной, чем средняя работа, до значительно более требовательной, чем средняя работа. Они ориентировались на то, насколько требовательными, по их мнению, были работы в среднем. Экспертам было сказано, что работа будет считаться более требовательной, если типичный студент, вероятно, наберет пропорционально меньше баллов или в целом выступит хуже, чем если бы он сдал другую работу. Судьям было предложено пересмотреть эти оценки после того, как они закончат упражнение CJ, на случай, если рассмотрение фактических ответов студентов на работы изменило их мнение.
Мы знаем, что экзаменационные работы отличаются по спросу из года в год, так как очень сложно писать экзаменационные работы, которые пользуются одинаковым спросом. Обычно это компенсируется установлением границ оценок, как обсуждалось во введении. Поэтому экзамены с разным спросом не были прямой проблемой. Вместо этого, цели рейтингового упражнения были 3-кратными. Во-первых, изначально сориентировать судей по экзаменационным работам и убедиться, что они полностью ознакомились с работами и схемами оценок. Во-вторых, попытаться избежать того, чтобы мнение судей о качестве ответов студентов находилось под влиянием спроса на оценки. Предыдущие исследования показали, что на суждения о качестве работы студентов может влиять спрос на оцениваемую оценку (Good and Cresswell, 1988). В-третьих, чтобы мы могли оценить связь между восприятием судьями спроса на работы и успеваемостью студентов с течением времени.
Затем судьям было предложено выполнить упражнение CJ. Для этого упражнения им был предоставлен уникальный логин для онлайн-платформы судейства, где каждому судье был предоставлен уникальный набор суждений для выполнения. Для каждого суждения судьям было представлено 2 случайных сценария рядом и предложено подумать: «Кто из этих 2 студентов является лучшим компьютерным ученым, основываясь на целостной оценке качества сценария?». Судьи могли прокручивать вверх и вниз каждый сценарий по отдельности, прежде чем принять решение. Судей попросили выносить свои суждения на основе общего качества ответов студентов и не пытаться переоценивать сценарии, чтобы прийти к своему решению. Судей попросили принимать относительно быстрые решения и сообщили, что оценка каждой пары должна занять около 5-6 минут.
Первоначально каждому судье было предоставлено распределение в 70 или 71 суждение, с целью получить в общей сложности 20 суждений на сценарий среди судей. Поскольку один судья не смог выполнить всю задачу, его дополнительное распределение было передано одному из других судей, в результате чего один судья выполнил только 52 суждения, а другой — 90 суждений.
После завершения судейства к суждениям была применена модель Брэдли-Терри (Брэдли и Терри, 1952), чтобы дать каждому сценарию оценку, указывающую на его вероятность «выиграть» отдельные пары. Для этого исследования оценки сценария можно интерпретировать как указание на качество ответов студентов по сравнению с другими сценариями. Подробное обсуждение методологии CJ и анализа в этом контексте см. в Curcin et al (2019).
Наконец, после того как судьи выполнили все остальные задания, им был отправлен краткий опрос с вопросами о том, как они оценили процесс судейства, насколько они уверены в своих суждениях и каково их общее мнение о качестве увиденных ими работ студентов.
Результаты
Спрос на бумагу
Рейтинги востребованности статей сначала были стандартизированы внутри каждого судьи (до среднего рейтинга 0 и стандартного отклонения 1), а затем усреднены по судьям. Рейтинги востребованности показаны на рисунке 23. В среднем статьи AQA считались более требовательными, чем статьи OCR. Комментарии из опросов показали, что судьи считали их менее доступными, чем статьи OCR. Статьи OCR считались более требовательными в 2015 и 2016 годах, тогда как статьи AQA считались самыми требовательными в 2017 году. После реформы (2018 и 2019 годы) спрос на статьи между двумя AO был оценен как более схожий. Трудно напрямую интерпретировать размер этих воспринимаемых различий в спросе, поскольку все они были в относительной шкале. Обсуждения с экспертами показали, что, по их мнению, некоторые оценки были сложнее других (и это не просто артефакт того, что мы задали этот вопрос), однако неясно, какое влияние это могло оказать на успеваемость учащихся.
Рисунок 23. Средние стандартизированные относительные оценки спроса на бумагу судьями со стандартными ошибками.
Рисунок 24 ниже показывает положение границ классов C/4 для тех же 2 оценок между 2012 и 2019 годами. Если все остальное останется стабильным, мы, как правило, ожидаем, что границы классов изменятся, чтобы компенсировать изменение спроса на оценку. Поэтому мы могли бы ожидать обратную картину из рисунка 23, то есть в годы, когда спрос увеличивается, границы классов должны снижаться, чтобы поддерживать тот же стандарт в рамках оценки.
Рисунок 24. Границы оценок, использованных в исследовании CJ, с течением времени.
Хотя существует некоторая связь между моделями изменения спроса на оценку и границами классов, из рисунков 23 и 24 очевидно, что границы классов не двигаются исключительно в ответ на изменение рейтингов спроса на оценку. Однако могут быть и другие факторы, которые влияют на положение границ классов помимо спроса на оценку. В частности, поскольку стандарты поддерживаются на уровне квалификации, а не оценки, нам необходимо учитывать связь между различными оценками, которые составляют квалификацию, при интерпретации изменений границ классов.
Основной целью этого упражнения было познакомить экспертов с оценками и учесть их требования при вынесении суждений для упражнения CJ. Эти рейтинги спроса на статьи также предоставляют полезный контекст для интерпретации основных выводов CJ, представленных в следующем разделе.
CJ-анализ качества сценария
Результаты модели CJ позволяют нам оценить надежность оценок, предоставленных судьями. В частности, infit является мерой согласованности суждений, вынесенных судьями, по сравнению с общим соответствием модели. Высокий infit указывает на то, что судья был либо непоследователен в своих собственных суждениях, либо при сравнении с суждениями, вынесенными другими экспертами. Аналогично, сценарий с высоким infit может указывать на то, что сценарий был оценен ненадежно.
Судьи в среднем тратили чуть более 7 минут на одно суждение. Один судья был удален из дальнейшего анализа, поскольку его оценка несоответствия была заметно выше, чем у других судей (1,44), что говорит о том, что их суждения не соответствовали оценкам других судей. Их среднее время судейства составило всего 47 секунд, что говорит о том, что они, возможно, не потратили достаточно времени на вынесение точных суждений. После удаления этого судьи надежность разделения составила 0,85, что подтверждает, что суждения были последовательными между судьями и внутри них. Сценарии оценивались в среднем 18,65 раз (диапазон от 15 до 20). Четыре сценария были удалены из окончательного представления результатов, поскольку у них была заметно более высокая оценка несоответствия, чем у других сценариев (более 1,5), что говорит о том, что их, возможно, было особенно трудно судить, и поэтому их оценки качества сценариев могли быть несколько ненадежными.
Рисунок 25 суммирует рейтинги по различным сценариям для каждого года и каждого АО. Сценарии с более высоким баллом, и, следовательно, расположенные выше в таблице, имеют более высокий рейтинг качества. Если все сценарии в году оцениваются как более качественные, чем в другие годы, это может означать, что стандарт успеваемости, необходимый для получения этой оценки, был выше, что можно описать как то, что студентам было сложнее получить эту оценку в этом году.
Рисунок 25. Линейная диаграмма, показывающая средние баллы сценариев на границах A/7 и C/4 с 95% доверительными интервалами.
Несколько закономерностей заметны в результатах CJ, показанных на рисунке 25. На границах A/7 и C/4 в период с 2014 по 2015 год качество работы оценивалось как более низкое для AQA, чем для OCR. Качество работы студентов для AQA также постепенно улучшалось в период с 2014 по 2017 год. Однако следует отметить, что эти временные различия и изменения с течением времени не кажутся проблематичными, поскольку это согласуется с закономерностями, ожидаемыми от «пилообразного эффекта». Поскольку центры, предлагающие спецификацию AQA, вероятно, изначально были незнакомы с учебным материалом и структурой оценки, когда они впервые стали доступны, мы ожидаем постепенного улучшения по мере того, как они будут лучше знакомиться с квалификацией и оценками. Границы оценок, указанные прогнозами в течение этого периода, которые изначально основывались на результатах OCR, автоматически компенсируют этот эффект, что предполагает немного более низкое качество работы на границе. Это также можно увидеть в увеличении границ классов за этот период на рисунке 24. Также важно отметить, что сравнения, сделанные между АО, здесь основаны на подмножестве оценок для каждой спецификации. Не следует предполагать, что отношения между проанализированными оценками отражают отношения для квалификаций в целом.
Для OCR оценки качества текста на границе класса C/4 с 2015 года заметно выше и более изменчивы, чем в большинство других лет. Эта работа была оценена экспертами как одна из самых требовательных (рисунок 23), а сценарии для этой работы были оценены как самые изменчивые по качеству. Это может указывать на осторожность при интерпретации результатов этой работы, поскольку эксперты могли не эффективно компенсировать спрос на работу при сравнении сценариев из этой работы с другими работами.
Качество работы для документов OCR было самым низким на границе C/4 в 2014 и 2016 годах. Сравнивая эти 2 года с 2017 годом, это будет означать сдвиг в сторону более высокого качества письма, требуемого в 2017 году, что может указывать на то, что в этом году стало сложнее достичь C/4. Эта закономерность схожа для документов OCR и AQA на уровне C/4 и несколько очевидна на уровне A/7 для OCR. Однако к этому выводу следует относиться с осторожностью по двум причинам. Во-первых, для AQA границы оценок могли по-прежнему отражать пилообразные эффекты, присутствующие в течение этого периода, что указывает на изменение требуемого качества по причинам, отличным от непреднамеренного изменения стандарта. Во-вторых, этот вывод игнорирует точку данных 2015 года для OCR на уровне C/4, что предполагает более высокое качество работы, требуемое в том году.
Краткое содержание
В целом результаты сравнительного суждения несколько неубедительны. Качество работы, требуемой для получения C/4, могло упасть в 2014 году (для OCR), прежде чем снова вырасти в 2016 и 2017 годах (как для AQA, так и для OCR). Падение качества в 2014 году могло быть вызвано прогнозами, которые использовались для помощи в установлении границ, когда студенты могли быть менее подготовлены, поскольку новые и менее специализированные центры начали предлагать квалификацию. Предположение о повышении качества после этого согласуется с предыдущим анализом, который указывает на увеличение сложности в 2016 и 2017 годах, хотя выводы не являются однозначными.
Раздел 1. Обсуждение
Для облегчения обсуждения результатов в Таблице 22 суммированы все вышеперечисленные анализы и то, что они указывают на размер потенциального изменения стандартов между 2014 и 2019 годами. Эти изменения выражены в терминах предполагаемого изменения процентных пунктов среди учащихся, получающих по крайней мере оценку A/7, C/4 или G/1, и в терминах средней оценки, где это уместно. Как обсуждалось ранее, каждый из этих анализов имеет разные предположения и ограничения и, в некоторых случаях, включает немного разные выборки учащихся. Поэтому необходимо проявлять осторожность при прямом сравнении результатов разных анализов.
Таблица 22. Сводка результатов анализов в группе 1.
Метод | Изменение A/7 с 2014 года | Изменение C/4 с 2014 г. | Изменение G/1 с 2014 года | Среднее изменение оценок с 2014 года (шкала от 9 до 1) |
---|---|---|---|---|
Существенное изменение результатов | -1.3пп | -4.3пп | +0,02пп | -0,26 |
Совокупный эффект присуждения по прогнозу | -1,5пп | -3,5пп | -1,8пп | н/д |
Анализ Раша | н/д | н/д | н/д | -0,12 до -0,28 |
Метод Келли | н/д | н/д | н/д | -0,17 до -0,27 |
Анализ прогресса | н/д | н/д | н/д | -0,15 |
Моделированные прогнозы (исключая новые) — предыдущие | -4.2пп | -6.6пп | -0,5пп | н/д |
Моделируемые прогнозы (кроме новых) – одновременные | -6.1пп | -7.3пп | -0,5пп | н/д |
Модель результатов с течением времени (только центры 2014/2015 гг.) — одновременное достижение | -4,5пп / -3,4пп | -4,4пп/-5,6пп | Никаких изменений. | -0,31/-0,33 |
Модель результатов с течением времени (только центры 2014/2015 гг.) — предыдущие достижения | -4.3pp/-2.0pp | -3,9пп/-4,3пп | Никаких изменений. | -0,27/-0,28 |
Общие центры (95% ДИ среднего значения разных моделей) | -2,5пп до -0,1пп | -6.1пп до -3.3пп | -1,0пп до -0,4пп | н/д |
Сравнительное суждение исследование | Нет разницы | Сложнее? | н/д | н/д |
В целом, основываясь на ряде анализов, проведенных в 1-й группе, между 2014 и 2015 и 2017 годами, по-видимому, произошел тонкий сдвиг в стандартах GCSE по информатике. Это особенно заметно около границы класса C/4, но также, по-видимому, есть немного меньшие изменения на границе класса A/7. Различные проведенные моделирования оценивают, что к 2019 году у аналогичных учащихся, возможно, было на 3–6 п. п. меньше шансов получить по крайней мере оценку C/4 по сравнению с учащимися в 2014 году. На границе A/7 доказательства несколько менее последовательны, но есть некоторые свидетельства того, что аналогичный сдвиг мог произойти, в результате чего у учащихся было на 2–3 п. п. меньше шансов получить A/7 в 2019 году по сравнению с 2014 годом.
Это изменение стандартов было выявлено в ходе применения методов анализа, хотя точный размер этого эффекта варьируется в зависимости от различных анализов. Во введении мы обсудили 3 возможных фактора, которые могли вызвать снижение результатов:
1. Изменения в способностях когорты,
2. Эффекты пилообразной формы, когда центры предлагали предмет впервые и могли быть незнакомы с квалификацией или оценками,
3. Изменения других факторов с течением времени, которые могут повлиять на подготовку студентов к оценкам, например, качество преподавания.
Однако даже после того, как мы учли возможное влияние всех 3 факторов, особенно в общих подходах к анализу и моделированию центров, изменение результатов все равно было очевидным. Это говорит о том, что с течением времени произошло непреднамеренное изменение стандартов оценки квалификации. Эти изменения, вероятно, были небольшими в течение каждого года и могли не быть заметными для лиц, присуждающих награды, в течение каждого года, но привели к большему кумулятивному эффекту с течением времени.
Причины такого сдвига стандартов мы можем только предполагать из имеющихся данных и из документов о присуждении, полученных от AO. В период с 2015 по 2017 год количество студентов, получающих квалификацию, более чем удвоилось, многие из них обучались в центрах, которые никогда ранее не предлагали GCSE по информатике. Предыдущие достижения этих студентов из этих центров были в среднем ниже, чем в предыдущие годы. Прогнозы на основе предыдущих достижений впоследствии снизились в этот период, однако, несмотря на это падение прогнозов, границы классов по AO были установлены таким образом, что результаты были ниже прогнозов. Все это в совокупности предполагает, что студенты могли в среднем хуже справляться с оценками с течением времени, что потенциально привело к обоснованному снижению результатов.
До первого года реформированных оценок в 2018 году квалификация включала элемент контролируемой оценки, состоящий из проекта, выполняемого в классе. В связи с тем, что контролируемые оценочные задания обычно оставались схожими из года в год, границы оценок обычно сохранялись неизменными из года в год. Это означало, что AO, скорее всего, учитывали доказательства, предоставленные статистическими прогнозами, путем установления границы оценок по исследуемому компоненту. В среднем границы оценок по исследуемым компонентам были снижены в период с 2014 по 2017 год, но было сочтено нецелесообразным снижать их так, чтобы результаты учащихся соответствовали прогнозам. Отчеты о присуждении наград показывают, что присуждающие не чувствовали себя комфортно, снижая границы оценок еще больше, чтобы соответствовать прогнозам, поскольку они считали, что качество работы не соответствовало достаточному стандарту. Это могло привести к несоответствию между результатами по разным оценкам, что сделало бы поддержание соответствующих стандартов на уровне квалификации весьма сложным.
Наряду с этими изменениями AO также имели дело с проблемами недобросовестной практики. Недобросовестная практика в элементах контролируемой оценки была проблемой с момента создания квалификации, в конечном итоге приведшей к отмене NEA после реформы в 2018 году. В попытке противодействовать этому OCR (крупнейший поставщик квалификации) сделал одну из своих контролируемых оценок более открытой и, следовательно, потенциально более сложной в 2016 году. Изменение оценок может привести к временным пилообразным эффектам, поскольку учителя знакомятся с новой структурой оценки, что может привести к снижению успеваемости учащихся.
Вышеизложенное предполагает, что невыполнение АО прогнозов в 2016 году и последующее падение результатов в 2016 и 2017 годах могли быть в некоторой степени оправданы более слабыми результатами кандидата, отчасти из-за изменения состава когорты. Однако некоторые из эффектов, которые привели к этим более слабым результатам, могли быть временными.
В информатике базовый год для прогнозов обновлялся почти каждый год в период с 2012 по 2019 год. То есть год, используемый для сравнения взаимосвязи между предыдущими достижениями и результатами. Целью этого было отразить меняющуюся когорту и любые результирующие изменения в отношении добавленной стоимости. Хотя это, вероятно, в значительной степени помогло управлению изменениями в когорте в течение этого периода, непреднамеренным эффектом могло стать также перенос любых изменений в отношении добавленной стоимости из лет, когда производительность могла быть временно слабее. 2018 и 2019 годы также были первыми 2 годами реформированной квалификации, периодом, когда возникли дополнительные проблемы с обеспечением поддержания стандартов. Это изменение могло сделать невозможным выявление каких-либо положительных изменений в стандарте производительности, которые могли последовать, если бы некоторые из эффектов, приводящих к более низкой производительности, были временными.
В конечном итоге это означает, что между 2014 и 2015 и 2017 годами наблюдалось относительно быстрое (хотя и небольшое) снижение связи добавленной стоимости между предыдущими достижениями студентов в KS2 и их успеваемостью в GCSE по информатике. Затем между 2017 и 2019 годами эта связь оставалась относительно стабильной. Это может быть достоверным отражением меняющейся когорты и, следовательно, истинным представлением их способностей в информатике. Однако количество временных эффектов, наблюдаемых в течение этого периода, и тот факт, что из нашего анализа мы также увидели падение результатов в центрах, результаты которых, как мы ожидали, были стабильными в течение этого периода, заставляет нас усомниться в обоснованности этого снижения в отражении подлинного, постоянного изменения в успеваемости студентов.
В 2023 году информатика GCSE была широко доступна для преподавания уже более 10 лет. Поэтому разумно полагать, что любые временные переходные эффекты, которые могли повлиять на успеваемость учащихся в первые годы обучения, должны были пройти.
Предостережения и ограничения
Одним из ключевых ограничений почти всех представленных здесь анализов является предположение о том, что не было законных изменений в результатах учащихся в оценках GCSE по информатике из-за факторов, которые не были проконтролированы. Эти законные изменения могут исходить из различных источников. Например, для анализов, сравнивающих результаты по информатике GCSE с предыдущими или текущими достижениями, ключевым предположением является то, что связь с предыдущими достижениями должна была оставаться стабильной. Отношения добавленной стоимости могут меняться по широкому кругу причин, которые могут быть законными и которые может быть сложно учесть при установлении стандартов. Например, изменения во времени обучения, качестве обучения, мотивации учащихся или изменения в преподаваемом содержании могут вызвать законные изменения в результатах. Это также применимо к методам сравнения результатов по информатике с другими предметами.
Другое потенциальное законное изменение результатов могло произойти из-за сокращения врачебной халатности после отмены NEA. До реформы существовали существенные проблемы с врачебной халатностью, которые могли привести к завышенным результатам по этой оценке. В 2016 году OCR изменил свою контролируемую структуру оценки, чтобы попытаться ограничить это, что могло привести к небольшому падению результатов. Удаление компонента NEA после реформы также могло вызвать проблемы в поддержании стандарта успеваемости, хотя это было направлено на то, чтобы компенсировать это с помощью подхода к поддержанию стандартов во время реформы. Гипотетически падение результатов могло бы представлять собой более достоверное отражение достижений учащихся, чем то, которое представляли контролируемые оценки до реформы.
В том же ключе есть отдельные свидетельства того, что студенты лучше подготовлены к контролируемым оценочным заданиям, чем к экзаменам, когда и то, и другое вносило вклад в квалификационный балл. После того, как эта опция была удалена, это могло привести к снижению результатов, если учителя не были хорошо подготовлены к преподаванию экзаменационного контента. Однако этот эффект мог быть временным, как и другие эффекты во время реформы.
Еще одно дополнительное предположение, которое мы сделали в ходе этих анализов, заключается в том, что стандарт, установленный в первые годы квалификации, был подходящим, и впоследствии 2014 год был подходящим годом для сравнения стандартов. Установление стандартов в первые годы квалификации является сложной задачей, и в конечном итоге соответствие стандарта предмету может быть определено только экспертами и заинтересованными сторонами в этой области. Это то, к чему мы вернемся в разделе 2 этой работы.
Strand 2 — Стандарт производительности летом 2023 г.
Цели
В предыдущих анализах рассматривалось, есть ли доказательства потенциального изменения стандартов с течением времени. Целью этого направления было изучение стандартов производительности в оценках GCSE по информатике в самой последней серии, которая была доступна (лето 2023 года), чтобы понять, какое влияние оказало бы любое изменение стандартов на качество работы, которое необходимо продемонстрировать учащимся для получения ключевых оценок, учитываемых при присуждении (7-й и 4-й классы). Поэтому это исследование было сосредоточено на минимальном уровне производительности, требуемом для этих оценок.
В этом было 2 элемента. Первый заключался в том, чтобы понять, в какой точке шкалы оценок эксперты последовательно определяли разницу в стандартах от границы оценок, и, где это было заметно, считали ли эксперты качество работы приемлемым для получения соответствующей оценки. Цель второго элемента заключалась в том, чтобы понять, в каком диапазоне успеваемости учащихся эксперты считали, что качество работы указывает на то, что учащиеся преуспеют в дальнейшем изучении информатики. Здесь мы опираемся на одну из ключевых целей GCSE «обеспечить прочную основу для дальнейшего академического и профессионального обучения и трудоустройства» (Ofqual, 2023) в качестве ориентира для стандарта квалификации.
Эта работа потребовала от экспертов по предметам вынесения целостных суждений о качестве работы учащихся в различных точках распределения оценок и выявления мест, где они могли бы надежно воспринять различия в качестве работы. Это очень сложная задача, и она становится особенно трудной, когда ответы учащихся неравномерны по всему оцениванию или когда судьям необходимо учитывать большой объем доказательств для вынесения своих суждений (Leech and Vitello, 2023). Однако, учитывая, что экспертное суждение является ключевым компонентом установления стандартов для GCSE, выявление мест, где эксперты могут выявить различия в качестве работы, и масштабов этих различий важно для понимания влияния любых изменений этого стандарта.
Наконец, мы также хотели получить любые другие качественные сведения, которые могла бы иметь экспертная группа специалистов по информатике относительно стандарта текущих квалификаций GCSE по информатике.
Методология
Привлечение экспертов по предметной области
Для проведения проверки были наняты эксперты по компьютерным наукам. Мы наняли экспертов с различным опытом, все из которых имели некоторое представление о текущих квалификациях уровня A или GCSE. Эксперты были наняты из ряда источников, включая реестр экспертов по предметным областям Ofqual, рекомендации BCS — дипломированного института ИТ, а также путем обращения к AO с просьбой рекомендовать старших экзаменаторов для участия в работе. Целью было нанять группу экспертов по компьютерным наукам с различным опытом, которые представляют ряд заинтересованных сторон в квалификации, чтобы предоставить подробные сведения о стандарте компьютерных наук GCSE. Мы успешно наняли 8 экспертов с разнообразным опытом, включая действующих и бывших учителей информатики уровней A и GCSE, представителей BCS и информатики в школах (CAS), тех, кто имеет опыт выставления оценок для различных AO, тех, кто имеет опыт работы старшим экзаменатором и награждения (установление границ оценок), тех, кто имеет опыт обучения других учителей информатики, а также тех, кто имеет опыт написания учебников и других материалов для помощи в преподавании информатики (см. сводку в Таблице 23).
Таблица 23. Краткое описание опыта и знаний экспертов в области компьютерных наук (CS)
Опыт | Количество экспертов (всего 8) |
---|---|
Количество лет преподавания компьютерных наук или смежных специальностей | Медиана 17,5, мин 14, макс 36 |
Опыт преподавания GCSE CS | 8 |
Опыт преподавания компьютерных наук уровня A | 7 |
Работал экзаменатором по CS (любой AO) | 5 |
Опыт написания/разработки оценок CS | 3 |
Опыт написания учебных материалов или учебников по информатике | 7 |
Опыт обучения других преподавателей компьютерных наук | 6 |
Степень или выше в области компьютерных наук (или близкой по тематике) | 6 |
Работал в области компьютерных наук вне преподавания | 2 |
Материалы для экзамена
Экзаменационные сценарии были запрошены у AQA, AO со вторым по величине входом в GCSE computer science. Эксперты, как правило, были менее знакомы со спецификацией AQA и, следовательно, имели менее предвзятые идеи о качестве сценария или требованиях к оценке. Наши предыдущие анализы показали, что стандарт между AO очень схож, и не было высказано никаких существенных опасений относительно сопоставимости между AO или ее отсутствия. Поэтому мы посчитали, что было уместным предположением, что выводы одного AO о стандарте производительности могут быть применимы ко всем AO, предлагающим GCSE computer science.
Студенческие работы были запрошены по ряду оценок, основанных на общей полученной квалификационной оценке (более подробная информация об этом приведена ниже). Несколько примеров студенческих работ были запрошены по каждому баллу оценки – 5 по границам оценок и 3 по другим оценкам. Спецификация AQA включает 2 экзаменационных работы, Работа 1: Навыки вычислительного мышления и программирования и Работа 2: Вычислительные концепции. Работа 1 доступна в 3 версиях (1A, 1B, 1C) в зависимости от используемого языка программирования (C#, Python или VB.Net соответственно). Чтобы помочь экспертам в сравнении между сценариями, мы включили только студентов, которые прошли работу 1B (Python), так как она имеет гораздо больше записей. Были запрошены обе экзаменационные работы от одного и того же студента, и сценарии были анонимизированы, чтобы удалить любые идентификаторы студентов и всю информацию об оценках. Были запрошены сценарии, которые имели относительно ровный профиль в обеих экзаменационных работах. Оба сценария экзамена от одного и того же студента были объединены в один PDF-файл. Затем были созданы «пакеты» сценариев студентов с одинаковым общим баллом (на уровне квалификации).
Метод
Эксперты по предмету посетили ознакомительную сессию, на которой исследователи представили цели проекта, объяснили задачи и позволили экспертам задавать вопросы и искать любые разъяснения. Затем экспертам было предложено выполнить 2 задания дома, в свое время. Наконец, была проведена обзорная встреча для обсуждения результатов заданий и предоставления экспертами любых дополнительных идей.
Задание 1
Для задания 1 экспертам были предоставлены пакеты сценариев на границе уровня квалификации 7 и 4 класса, а также схемы оценок и документы спецификации. Это были пограничные учащиеся, которые получили достаточно баллов для каждой оценки. Экспертам было предложено просмотреть сценарии в этих пакетах и предоставить сводку сильных и слабых сторон, продемонстрированных учащимися, и какие навыки или знания они продемонстрировали (или не продемонстрировали). Затем экспертов попросили указать, считают ли они, что качество работы соответствует ожидаемому ими уровню для GCSE 7 или 4.
После этого экспертам была представлена серия пачек сценариев на различных отметках выше и ниже границы 4 и 7 классов. Каждой пачке был присвоен случайным образом присвоенный идентификатор, а итоговые баллы по сценариям были удалены, поэтому эксперты не знали, какая пачка какая. Было 3 пачки выше каждой границы класса на каждой второй отметке от +2 баллов выше границы до +6 баллов, и было 7 пачек ниже каждой границы от -2 баллов до -14 баллов ниже границы.
Для каждого пакета экспертов спрашивали, считают ли они, что общее качество работы (среди всех студентов в пакете) обычно намного лучше, немного лучше, немного хуже, намного хуже или не заметно отличается от работы на границе оценок. Если эксперт считал, что есть разница, его просили предоставить краткое резюме того, в чем заключались эти различия, то есть, были ли студенты обычно лучше или хуже в демонстрации определенных навыков или знаний. Экспертов просили, насколько это возможно, сформировать целостное суждение по студентам, включенным в каждый пакет, чтобы получить представление о том, что было «типичным» в каждой точке оценки. Мы знали, что в некоторых случаях это может быть сложно. Несмотря на то, что сценарии имели относительно ровный профиль оценок, разные студенты могли иметь очень разные профили успеваемости на экзаменах.
Задание 2
После выполнения задания 1 экспертам было предложено выполнить задание 2. Для задания 2 экспертам было предложено подумать об ученике уровня GCSE, который, по их мнению, проявил достаточные способности, чтобы продолжить изучение информатики и добиться успеха. Затем их попросили описать, какие навыки или знания они ожидают от этого ученика. Экспертам изначально не было сказано, в чем должен заключаться «успех», но это обсуждалось с экспертами после выполнения задания (см. результаты – задание 2).
Затем экспертам были представлены различные серии пакетов сценариев, из которых была удалена информация об оценках. Однако на этот раз они были пронумерованы и представлены в порядке убывания оценок, начиная с сценариев границы 7-го класса. Пакеты предоставлялись с интервалом в 5 баллов, снижаясь по диапазону оценок до границы 3-го класса. Для этого задания эксперты знали, что пакеты были упорядочены по общему количеству баллов, хотя они не знали точную оценку или оценку каждого пакета или разницу в оценках между пакетами.
Для каждого пакета экспертов попросили указать, считают ли они, что студенты из этого пакета с высокой вероятностью преуспеют в дальнейшем обучении, скорее всего, скорее всего, скорее всего или крайне маловероятно. Наконец, экспертов попросили предоставить краткое обоснование своего решения и описать навыки или знания, которые они увидели в разных частях диапазона оценок, которые повлияли на их решение.
Обзорное совещание
После завершения задач были проведены 2 обзорные встречи с 4 экспертами по предметам каждая. На встречах экспертам было представлено резюме результатов первых 2 задач и их попросили высказать дополнительные соображения и размышления. Ключевой частью этого было обсуждение того, какой из пакетов, представленных в задаче 1, по их мнению, продемонстрировал достаточно знаний и навыков, чтобы получить оценку 4 или 7, где качество работы заметно отличалось от границы оценки. Экспертам также было предложено поделиться своими взглядами на общий стандарт квалификации и любыми размышлениями о воспринимаемой сложности GCSE по информатике.
Результаты
Задание 1
После просмотра сценариев границ классов для каждого класса, но перед просмотром пакетов для задания 1, экспертам был задан вопрос, соответствует ли качество работы на границах классов уровня квалификации их ожиданиям для этого класса, в ответе в свободной форме. Краткое изложение ответов экспертов показано в Таблице 24. Экспертам не было дано никаких указаний о том, на что им следует ссылаться при рассмотрении своих ожиданий, поскольку нас интересовали их различные взгляды в зависимости от их происхождения и опыта. В ответ на вопросы эксперты заявили, что они по-разному опирались на свой опыт преподавания уровня A, преподавания GCSE, присуждения предмета и профессиональный опыт.
Таблица 24. Сводка ответов экспертов на вопрос о том, соответствует ли качество работы на границе классов их ожиданиям.
Сравнение качества с ожиданиями | Количество ответов – 4 балла | Количество ответов – 7 баллов |
---|---|---|
Лучше, чем ожидалось | 1 | 3 |
Немного лучше, чем ожидалось | 1 | 1 |
Как и ожидалось | 4 | 3 |
Немного хуже, чем ожидалось | 2 | 1 |
Хуже, чем ожидалось | 0 | 0 |
В 4 классе мнения экспертов, считающих, что качество работы выше или ниже ожидаемого, разделились примерно поровну, и только один эксперт выразил твердое мнение, что работа была более качественной, чем они ожидали от ученика 4 класса с пограничными результатами. Однако в 7 классе 4 эксперта посчитали, что работа была лучше, чем они ожидали, тогда как только один посчитал, что она была хуже, чем ожидалось для ученика 7 класса с пограничными результатами.
Основные результаты задания 1 показаны на рисунках 26 и 27 ниже. Эти цифры показывают процент экспертов, которые оценили каждый пакет сценариев как намного лучше, немного лучше, немного хуже, намного хуже или не заметно отличающиеся от качества работы на границе оценок.
Было довольно много вариаций в ответах экспертов по предметам на каждый пакет, как с точки зрения различий между экспертами, так и в отношении общих оценок. Обсуждения с экспертами по предметам показали, что это могло быть связано с тем, что разные эксперты отдавали приоритет разным навыкам или частям экзаменационных работ при вынесении своих суждений. Это может, отчасти, отражать разнообразный характер содержания предмета. Эксперты также сказали, что они считали эту задачу сложной, поскольку часто наблюдалось большое количество вариаций в навыках и знаниях, продемонстрированных студентами в каждом пакете, которые получили одинаковую общую оценку. Это усложнило вынесение целостного суждения о качестве работы студентов в каждой точке оценки. Эти результаты не отличаются от предыдущей работы, которая показала, что экзаменаторам может быть сложно последовательно выявлять различия в качестве работы студентов, когда разница в общих оценках невелика (Бэрд и Диллон, 2005).
Это также могло привести к различиям между оценками экспертов и тем, что было засчитано в схемах оценок, поскольку эксперты по предметам могли придавать большее значение некоторым областям навыков и знаний, чем другим. Например, эксперты отметили, что они обычно отдавали приоритет результатам по программированию и/или вопросам с расширенным ответом при вынесении своих суждений о качестве студенческих работ. Для некоторых сценариев эксперты подчеркнули, что студенты могли быть непоследовательными, например, показывая высококачественные ответы в некоторых областях, но не отвечая на все вопросы, что приводило к более низким общим оценкам.
7 класс
Рисунок 26. Оценки экспертов по предметам пакетов сценариев на разных отметках около границы 7-го класса.
Результаты обзора сценариев учащихся около границы 7-го класса показывают, что в диапазоне приблизительно от +4 до -2 баллов от границы класса эксперты не выявили последовательной разницы в качестве работы учащихся. В этом диапазоне менее 50% экспертов указали, что пакеты заметно отличались от сценариев границы класса в соответствующем направлении.
На встрече по обзору экспертов попросили рассмотреть сценарии ниже этого диапазона и предоставить дополнительные мнения о качестве работы, продемонстрированной учащимися на этих баллах. При -4 баллах от границы, хотя эксперты считали, что работа была слабее, чем работа на границе оценок, большинство экспертов все же считали, что сценарии показали достаточно знаний и навыков, чтобы получить оценку 7, не оказывая сильного влияния на стандарт производительности, указанный этой оценкой. При -6 баллах от границы возникли некоторые разногласия. Хотя некоторые эксперты считали, что учащиеся работают на этой отметке, показывая достаточно высокое качество, чтобы получить оценку 7, другие не соглашались. Однако ниже этого уровня большинство экспертов считали, что в работе учащихся было слишком много слабых мест, при этом учащиеся демонстрировали недостаточное понимание и имели слишком много пробелов в своих знаниях для оценки 7.
4 класс
Рисунок 27. Оценки экспертов по предметам для пакетов сценариев на разных отметках около границы 4-го класса.
На 4-м уровне также была зона вокруг границы класса, где эксперты не всегда определяли различия в качестве сценариев от границы класса. Она варьировалась от +2 баллов выше границы до -4 баллов ниже.
Обсуждения с экспертами после просмотра сценариев ниже этой зоны снова показали, что учащиеся с оценками -4 могут показать достаточно навыков и знаний для оценки 4, при этом эксперты согласились, что в целом качество работы соответствовало их ожиданиям. При оценке -6 мнения экспертов по предметам разделились: некоторые считали, что сценарии указывают на то, что учащиеся продемонстрировали достаточные способности для оценки 4, однако другие считали, что было слишком много пропущенных ответов и пробелов в знаниях. Ниже этой точки все эксперты считали, что учащиеся показали значительные слабости, с непониманием ключевых концепций и заметно более слабыми навыками программирования.
На основе результатов учащихся, которые сдавали эти экзамены летом 2023 года, мы можем преобразовать разницу оценок от границ оценок в процентное изменение количества учащихся, которые получили бы оценку, если бы граница оценок была перемещена в другие баллы. Для этого расчета мы включили только 16-летних учащихся. Эта информация обобщена в Таблице 25 для различных баллов, обсуждавшихся выше. Мы представляем ее вместе с упрощенным резюме комментариев экспертов о разнице в качестве работы.
Таблица 25. Сводка различий в стандарте успеваемости при разных баллах и разница в процентных пунктах (пп) учащихся при каждом балле
Оценка | Отметьте разницу | Отличие от граничного стандарта производительности | Изменение в % учащихся, достигших оценок |
---|---|---|---|
7 | -2 | Не заметно | +1,9пп |
7 | -4 | Незначительный | +3,6пп |
7 | -6 | Умеренный | +5.4пп |
7 | -8 | Значительный | +7.1пп |
4 | -2 | Не заметно | +1,2пп |
4 | -4 | Не заметно | +2,5пп |
4 | -6 | Незначительный или умеренный | +3,7пп |
4 | -8 | Значительный | +4,9пп |
Задание 2
Целью задания 2 было понять точку зрения экспертов по предмету на то, что должен знать и уметь делать успешный студент, продолжающий изучать информатику. В ходе обсуждений с экспертами на обзорном совещании большинство экспертов подтвердили, что они рассматривали студента, продолжающего традиционный академический путь в информатике при выполнении этого задания. Большинство экспертов сосредоточились на студентах, которые, вероятно, получат по крайней мере оценку C по информатике уровня A. Однако эксперты подчеркнули, что для некоторых студентов оценка E все еще может считаться успехом. Меньшинство наших экспертов также рассматривали другие пути, такие как уровень T по цифровым навыкам.
Экспертам было предложено предоставить резюме того, какие навыки и знания они ожидают от студента, который в дальнейшем будет успешен в компьютерных науках, на уровне GCSE. Эксперты предоставили широкий список навыков (обобщенный в Таблице 26), который может отражать их разнообразный опыт, экспертные знания и предполагаемые приоритеты в рамках предмета. Однако в ходе дальнейшего обсуждения во время обзорных встреч эксперты согласились, что они не ожидают, что один студент продемонстрирует все эти навыки. Они предположили, что многие из этих навыков можно обобщить как хорошие навыки программирования и решения проблем. Эксперты также дали понять, что часто невозможно определить список навыков или знаний, которые указывают на успех, и, помимо содержания квалификаций, часто менее ощутимые факторы, такие как мотивация, зрелость или готовность учиться, являются предикторами успешного студента.
Таблица 26. Сводка навыков и знаний, определенных экспертами по предмету, которые могут указывать на студента, который, скорее всего, преуспеет в дальнейшем изучении информатики.
- Умение читать и отлаживать код
- Хорошие коммуникативные навыки и использование технических терминов
- Хорошее понимание теоретических концепций, хотя не обязательно их применение
- Четкое понимание типов данных и представления данных
- Базовые знания компьютерных систем и оборудования
- Умение обсуждать юридические и этические вопросы, связанные с технологиями
- Базовые/сильные математические навыки
- Понимать основы сетевых технологий и связи между устройствами
- Увлеченность предметом и способность видеть дальше учебной программы
- Умение логически мыслить
- Способность интерпретировать и применять алгоритмы для решения проблем (с разумной эффективностью)
- Умение применять принципы вычислительного мышления
- Разумные/сильные навыки программирования
- Уверенность в работе с простыми структурами данных (например, массивами)
- Знание одного языка программирования
- Умение мыслить творчески
- Отличные способности в различных системах счисления (восьмеричной и шестнадцатеричной)
- Умение писать программы для решения нетривиальных задач
- Хорошая способность решать проблемы
- Понять базовую абстракцию в компьютерных системах
В ходе обсуждений эксперты отметили, что они также посчитали задание 2 сложным, особенно из-за разного профиля студентов в каждом пакете. Однако они посчитали задание 2 более легким, чем задание 1, поскольку пакеты были представлены в порядке оценок, и поэтому они были более уверены в своих суждениях.
Рисунок 28 ниже показывает оценки, данные экспертами пакетам сценариев в разных точках шкалы оценок. Как и на предыдущих рисунках, цветные полосы указывают процент экспертов, давших каждую оценку; от студентов, которые с большой вероятностью преуспеют в дальнейшем обучении, до тех, которые с большой вероятностью не преуспеют в дальнейшем обучении.
Рисунок 28. Оценки экспертов по предметам относительно вероятности того, что учащиеся в каждой группе преуспеют в дальнейшем изучении информатики.
Ключевые моменты рисунка 28 — это пакет 7, самый низкий пакет, где большинство экспертов считают, что студенты, скорее всего, преуспеют в дальнейшем обучении, пакет 4, где все эксперты считают, что студенты, скорее всего, преуспеют, и пакет 3, где большинство экспертов считают, что студенты, скорее всего, преуспеют в дальнейшем обучении. С точки зрения оценок пакет 7 представляет студентов, получивших низкую оценку 5, пакет 4 — высокую оценку 5 и пакет 3 — низкую оценку 6.
Стоит повторить, что для этого задания пакеты были представлены в порядке от наивысшей общей оценки к наименьшей, и эксперты знали об этом порядке. Вероятно, это является причиной большей согласованности оценок по всему диапазону оценок, чем в задании 1.
Результаты этого задания были представлены экспертам на обзорном совещании. Некоторые из наших экспертов были удивлены тем, насколько низко в распределении оценок студенты были оценены как вероятные преуспевающие в дальнейшем обучении, заявив, что они ожидали, что эти студенты получат более высокую оценку, и что студенты, как правило, не будут допущены к курсам уровня A с оценкой ниже 6. Некоторые эксперты объяснили это тем, что при выполнении заданий давали студентам преимущество сомнения, пытаясь найти в сценариях доказательства, которые могли бы указывать на качество, особенно когда студенты могли продемонстрировать способности, но потеряли баллы, плохо изложив себя на экзамене. Другие эксперты были менее удивлены, особенно в свете предыдущего обсуждения, что часто не предметные навыки и знания, продемонстрированные на экзамене, указывают на перспективного студента, а другие факторы. Эти другие факторы, которые эксперты могли увидеть в ответах студентов, часто могли не быть «заслуживающими кредита» в системе оценок, что приводило к получению студентами более низких оценок.
Более широкие взгляды на стандарт со стороны экспертов-предметников
В рамках обсуждений экспертам было предложено представить более широкие взгляды на квалификацию и, в частности, любые взгляды, которые у них были относительно текущего стандарта квалификации. Хотя это мнение не было единогласным, некоторые эксперты считали, что GCSE был слишком сложным; мнение, которое было изучено далее в ходе обсуждения. Было высказано мнение, что это мнение основано на различных причинах, а не только из-за стандартов оценок. В этом разделе мы обсуждаем основные моменты, высказанные экспертами по предметам относительно текущей квалификации и факторов, которые могут повлиять на фактическую или воспринимаемую сложность для студентов, эти комментарии обобщены в темы ниже.
Качество преподавания
Эксперты неоднократно отмечали, что, по их мнению, в большинстве центров, предлагающих информатику, нет преподавателя-специалиста по информатике, и это отражалось на качестве работы студентов. Ряд экспертов считали, что это было основной причиной того, что студенты получали относительно более низкие оценки по информатике по сравнению с другими предметами, и воспринимали предмет как сложный. Однако также было высказано предположение, что это сложная проблема, поскольку для хороших специалистов по информатике, вероятно, будут возможности трудоустройства в других секторах, которые могут быть более финансово выгодными. Эта проблема была поднята в другом месте (Королевское общество, 2019), с отчетами, указывающими на то, что учителя информатики могут зарабатывать больше денег в карьере вне преподавания (Сибиета, 2018). Предыдущие статистические данные также предполагали, что исторически только около 15% учителей информатики были специалистами по предмету (Даллауэй, 2016). В 2017 году 46% учителей информатики в средних школах имели соответствующую квалификацию по вычислительной технике (36% по вычислительной технике, 10% по ИКТ или бизнесу с ИКТ) (Королевское общество, 2017). Более свежие данные за 2022-2023 учебный год показывают, что чуть более половины часов, преподаваемых по вычислительной технике в средних школах, преподавались учителями с соответствующей квалификацией после уровня A (54,1%), что контрастирует с другими предметами Ebacc по естественным наукам, где большую часть часов преподавал специалист по предмету (73-95%) (DfE, 2023).
В некоторых случаях эксперты посчитали, что они могли видеть доказательства того, что хорошие ученики плохо отвечали на вопросы, что могло быть связано с плохой подготовкой учеников к экзамену, что привело к плохой технике экзамена. Они также посчитали, что были некоторые доказательства того, что определенные области содержания были приоритетными по сравнению с другими. Также было отмечено, что информатика является очень практическим предметом, который может быть трудно преподавать в классе, особенно если в школах нет необходимого оборудования.
Содержание и время обучения
На обоих обзорных встречах обсуждалось разнообразие контента, включенного в программу GCSE по информатике. Эксперты по-разному выражали несогласие относительно того, какие навыки или знания должны быть приоритетными, что было выражено в их оценках в задании 1. Было отмечено, что это было более широкой проблемой в рамках предмета, поскольку мнения специалистов в этой области о том, какие навыки важны, различались. Эксперты предположили, что это могло привести к тому, что содержание GCSE было слишком широким, что привело к трудностям.
Некоторые эксперты отметили, что когда изначально контент был разработан, ожидалось, что он будет располагаться рядом с GCSE по ИКТ, который с тех пор был прекращен, и, возможно, если бы он был переработан, было бы выгодно включить часть контента ИКТ вместе с контентом по компьютерным наукам. Было мнение, что это может сделать предмет более доступным.
Эксперты также отметили, что из-за широкого содержания они не считали, что было достаточно времени, чтобы адекватно всему этому научить. Это особенно касалось элементов программирования, которые, по мнению экспертов, требуют гораздо больше времени для обучения, чем отражено в весе, который им придается в учебной программе и оценках. Эти опасения высказывались и в других источниках (Королевское общество, 2017; Ofsted, 2022). Также, по-видимому, наблюдается тенденция к сокращению, а не увеличению времени, выделяемого на преподавание компьютерных наук с течением времени (Кемп и Берри, 2019; Королевское общество, 2019). Эксперты предположили, что учащиеся должны быть достаточно вовлечены, чтобы практиковать навыки программирования вне класса, если они хотят добиться успеха.
Структура экзамена и схемы оценок
Один из комментариев, который повторялся в наших обсуждениях с экспертами по предметам, заключался в том, что в некоторых случаях наблюдалось несоответствие между оценками, полученными студентами, и их суждениями о «качестве». Эксперты в ряде случаев определяли студентов, которые, по их мнению, продемонстрировали определенные навыки или понимание, но не получили оценок. Было некоторое предположение, что это могло быть связано с плохим преподаванием материала или с тем, что студенты имели плохую технику экзамена и поэтому не получили «легких» оценок, плохо излагая свои мысли. С другой стороны, некоторые эксперты считали, что из-за характера экзаменов студенты, которые не очень хорошо разбирались в предмете, все равно могли получить разумное количество оценок по всей работе.
В ряде случаев высказывалось мнение, что тестирование навыков кодирования на письменном экзамене может не дать достоверного представления о способностях студента. Эксперты отдали предпочтение оценкам по информатике, которые проводятся на экране, где студенты могут редактировать или даже пробовать свой код, хотя эксперты признали, что были веские причины, по которым NEA был удален.
Прогрессия
Эксперты высказали предположение, что успеваемость на экзамене GCSE не обязательно указывает на то, насколько хорошо ученики справятся с уровнем A. Это может быть связано с тем, что многие ученики, сдающие экзамен A level по информатике, не сдавали GCSE, поэтому учителя уровня A ожидают, что у учеников будут пробелы в знаниях. Эксперты считали, что успех в дальнейшем обучении больше связан с усилиями, отношением и отсутствием страха пробовать и совершать ошибки, чем со знанием предмета. В связи с этим один эксперт считал, что ученики, получившие 7 баллов на экзамене GCSE, не обязательно хорошо подготовлены к уровню A, поскольку они могли хорошо сдать экзамен GCSE, но все равно не обладали навыками для дальнейшего продвижения в информатике. Однако эксперты также считали, что навыки программирования будут полезны, наряду с креативностью и навыками решения проблем.
Стандарты оценивания
Было отмечено, что снижение ожиданий для каждой оценки может принести пользу некоторым ученикам, но может поставить под угрозу целостность предмета. Это подтвердилось нашими обсуждениями с экспертами после задания 1, где был достигнут консенсус, что работа всего на несколько баллов ниже границ оценки не показала достаточных знаний и навыков, необходимых для каждой оценки. Небольшое количество экспертов отметили, что, по их мнению, качество работы на границах было на самом деле ниже, чем они ожидали, особенно в 7 классе.
Эксперты, которые выразили обеспокоенность тем, что текущий стандарт экзамена слишком сложен, не были единодушны в том, на каком уровне оценок сосредоточены их опасения, при этом разные эксперты предположили, что они считают стандарт слишком сложным в старших классах (7/8/9 класс) или в средних классах (4 и 5). Другие эксперты вместо этого считали, что оценка недоступна для более слабых учеников в младших классах (4 и ниже). Также некоторые эксперты предположили, что получить оценку 1 относительно легко.
Раздел 2. Обсуждение
Целью этого направления было пересмотреть стандарт успеваемости по информатике GCSE летом 2023 года, под этим мы подразумеваем качество работы, продемонстрированное учащимися для получения ключевых оценок (7-й и 4-й классы). Мы сделали это, запросив мнения группы из 8 экспертов с разнообразным опытом в области информатики. Эти эксперты представляли различные точки зрения учителей, отраслевых экспертов и предметных органов. В целом, мнения предметных экспертов о том, является ли текущий стандарт успеваемости соответствующим, были неоднозначными. Некоторые предметные эксперты считали, что качество работы на границах было ниже, а другие выше, чем ожидалось, хотя немного больше экспертов считали, что стандарт работы на 7-м классе был выше, чем ожидалось.
Результаты первого задания и обсуждения во время обзорного совещания указывают на то, что существует область вокруг каждой границы оценок, где эксперты не всегда выявляли заметную разницу в качестве работы, выполненной учащимися (распространяясь до -2 баллов ниже границы на 7-м уровне, -4 баллов на уровне C). Поэтому для этих оценок, если бы граница оценок находилась где-то в этом диапазоне, это оказало бы незначительное влияние на стандарт эффективности квалификации. Данные экспертов предполагают, что при перемещении немного ниже по распределению оценок (-4/6 баллов на 7-м уровне и -6 баллов на 4-м уровне) разница в качестве работы становится более заметной. Однако в ходе обсуждения эксперты посчитали, что перемещение стандарта в пределах этого диапазона не подорвет цель квалификации. Эксперты посчитали, что перемещение дальше этого диапазона приведет к тому, что учащиеся покажут заметно меньше навыков и знаний, и окажет значительное негативное влияние на стандарт квалификации.
Вторая задача была направлена на то, чтобы понять, насколько хорошо учащиеся, получившие разные оценки по информатике GCSE, были подготовлены к дальнейшему изучению предмета, что представляет собой одну из основных целей GCSE. Результаты этой задачи были неоднозначными. Результаты показали, что эксперты считали, что учащиеся с высокой оценкой 5 могут преуспеть в дальнейшем обучении. Однако для некоторых экспертов это стало неожиданностью, так как было бы необычно принять учащегося с оценкой 5 для изучения информатики уровня A. Однако из обсуждений с экспертами стало очевидно, что может быть сложно судить, какие учащиеся преуспеют на уровне A. Эксперты считали, что успех, как правило, меньше связан со знанием содержания предмета учащимися при поступлении на уровень A, чем с их отношением и подходом к предмету. Это может быть связано с тем, что некоторые учащиеся сдают уровень A, не сдавая GCSE, и поэтому учителя предполагают очень низкие или фрагментарные знания от учащихся, поступающих на уровень A. Поэтому эксперты могли быть щедры в своей оценке работы учащихся для этого упражнения, стремясь найти доказательства потенциала, даже если учащиеся плохо справились с оценкой.
Наконец, обсуждения с экспертами показали, что хотя и было некоторое мнение, что оценки по информатике GCSE были сложными, эксперты считали, что существует большое количество других потенциальных причин, по которым квалификация считается слишком сложной, помимо стандартов оценки экзаменов. Главными из них могут быть проблемы с набором учителей-специалистов по предметам, проблемы с достоверной оценкой навыков программирования и широта содержания квалификации.
В заключение, в целом, эксперты посчитали, что есть некоторые основания для корректировки стандарта в GCSE computer science, хотя мнения по этому поводу были неоднозначными. Результаты показывают, что стандарт в оценке может быть снижен в небольшой степени, не подрывая квалификацию, но любые более крупные изменения потенциально будут сочтены нежелательными экспертами по предметам. Были выделены более широкие проблемы с восприятием сложности в GCSE computer science, которые не могут быть решены путем изменения стандарта оценки или путем установления границ классов.
Общий вывод
Целью направления 1 данного исследования было понять, были ли какие-либо доказательства изменения стандартов в области компьютерных наук GCSE с течением времени, что могло привести к тому, что предмет стал сложнее, чем предполагалось. Во многих методах было указано на небольшое изменение стандартов с течением времени, особенно в период с 2014 по 2017 год. В течение этого периода произошло большое количество изменений в квалификации с точки зрения количества и состава студентов, получающих квалификацию, количества новых центров, впервые принимающих студентов на квалификацию, и некоторых изменений в дизайне и структуре оценки. Эти изменения создают проблемы в поддержании стандартов, что в данном случае могло привести к некоторым небольшим постепенным изменениям в стандарте квалификации. Учитывая, что такие изменения, вероятно, были небольшими, они вряд ли были обнаружены старшими экзаменаторами при установлении границ классов каждый год. Однако в совокупности это, по-видимому, привело к более существенному изменению стандартов. В методах, использованных в первой группе, данные свидетельствуют о том, что в период с 2014 по 2019 год произошло небольшое изменение стандартов в классе A/7, а также немного большее изменение в классе C/4. Данные о каком-либо изменении стандартов в классе G/1 были слабыми.
В направлении 2 мы стремились изучить, какое влияние окажет любое изменение стандарта квалификации на навыки и знания, продемонстрированные учащимися в оценках, и понять, какое влияние это может оказать на успеваемость учащихся. Результаты показали, что небольшое изменение стандартов в 7-м и 4-м классах окажет незначительное влияние на стандарт успеваемости для каждого класса, и что это вряд ли повлияет на продвижение учащихся к дальнейшему изучению информатики. Однако любые более крупные изменения начнут иметь нежелательные последствия для навыков и знаний, которые наши предметные эксперты ожидают от учащихся, и могут подорвать ценность квалификации. Другие отзывы экспертов в направлении 2 не указывали на то, что более крупное изменение стандартов оценивания было сочтено необходимым. Предметные эксперты выделили ряд факторов, которые могут повлиять на воспринимаемую и фактическую сложность предмета помимо стандартов оценивания в оценках. К ним относятся опыт учителя, время учебной программы, содержание предмета и обеспечение ресурсами.
Подводя итог, можно сказать, что данные, представленные в этом отчете, предполагают, что следует рассмотреть вопрос о внесении изменений в стандарты оценивания в GCSE по информатике. Данные из направления 1 указывают на то, что, вероятно, с течением времени в стандартах квалификации произошли небольшие изменения, а результаты из направления 2 предполагают, что небольшие изменения в стандартах оценивания вряд ли подорвут ценность квалификации или прогресс студентов в дальнейшем изучении информатики.
Ссылки
Бентон, Т. (2013). Формализация и оценка методологии контрольных центров для установления стандартов GCSE. Отчет об исследовании оценки в Кембридже.
Бентон, ТСТ и Сатч, Т. (2014). Анализ использования данных 2-го этапа ключа в прогнозах GCSE. Исследовательский отдел ARD.
Брэдли, РА и Терри, М. (1952). Ранговый анализ неполных блочных схем: I. Метод парных сравнений. Биометрика, 39, 324–345.
Bramley, T. (2007). Методы парного сравнения. В PE Newton, J. Baird, H. Goldstein, H. Patrick & P. Tymms (ред.), Методы мониторинга сопоставимости экзаменационных стандартов. (стр. 246-294). Квалификации и полномочия учебной программы.
Bramley, T., & Oates, T. (2011). Ранжирование и парные сравнения — как Cambridge Assessment использует их в оперативной и экспериментальной работе. Research Matters: A Cambridge Assessment Publication, 11, 32-35
Браун, NC, Сентанс, S., Крик, T. и Хамфрис, S. (2014). Перезапуск: Возрождение компьютерных наук в школах Великобритании. ACM Transactions on Computing Education (TOCE), 14(2), 1-22.
Ко, Р. (2008). Сопоставимость экзаменов GCSE по разным предметам: применение модели Раша. Oxford Review of Education, 34, 609–636.
Коу, Р., Сирл, Дж., Бармби, П., Джонс, К. и Хиггинс, С. (2008). Относительная сложность экзаменов по разным предметам. Центр CEM.
Крессвелл, М. Дж. (2003). Кучи, прототипы и этика: последствия использования оценок успеваемости студентов для установления стандартов экзаменов в эпоху перемен. Институт образования Лондонского университета.
Кафф, Б. М., Медоуз, М. и Блэк, Б. (2019). Исследование эффекта пилы в оценках средней школы в Англии. Оценка в образовании: принципы, политика и практика, 26(3), 321-339.
Curcin, M., Howard, E., Sully, K., & Black, B. (2019). Улучшение награждения: пилоты 2018/2019. Ofqual.
Даллауэй, Э. (2016). Реформа GCSE: Новый рассвет компьютерных наук. CREST.
DfE (2015). Компьютерные науки: Содержание предмета GCSE. Департамент образования.
DfE (2023). Отчетный год 2022: Школьные работники в Англии. Национальная статистика.
Гуд, Ф. Дж. и Крессвелл, М. Дж. (1988). Оценочные суждения на дифференцированных экзаменах. British Educational Research Journal, 14(3), 263-281.
Хе, К. и Блэк, Б. (2020). Влияние расчетных оценок, оценок центральной оценки и итоговых оценок на межпредметную сопоставимость на экзаменах GCSE и уровнях A в 2020 году. Ofqual.
Он, К. и Кэдвалладер, С. (2022). Исследование межпредметной сопоставимости на экзаменах GCSE и A-level летом 2021 г. Ofqual.
Келли, А. (1976). Исследование сопоставимости внешних экзаменов по разным предметам. Исследования в области образования, 16, 37–63.
Kemp, PEJ & Berry, MG (2019). Ежегодный отчет по компьютерному образованию в Roehampton: предварительный обзор 2018 года. Университет Roehampton
Ньютон, П. (2020). Что такое эффект пилы? Ofqual.
Ofqual (2015a). Дальнейшие решения по завершению реформы GCSE, AS и A Level в 2017 году. Ofqual.
Ofqual (2015b). Сопоставимость различных предметов GCSE и A Level в Англии: введение. Ofqual.
Ofqual (2016). Решения об установлении стандартов оценок новых GCSE в Англии — часть 2. Ofqual.
Ofqual (2017). Консультации по пересмотренным процедурам оценки для GCSE по информатике. Ofqual.
Ofqual (2019). Решения о будущих механизмах оценки для GCSE (9 к 1) по информатике. Ofqual.
Ofqual (2023). Условия и требования к уровню квалификации GCSE (9 к 1). Ofqual.
Ofsted (2022). Серия обзоров исследований: вычисления. Ofsted.
Королевское общество (2017). После перезагрузки: компьютерное образование в школах Великобритании. Королевское общество.
Королевское общество (2019). Брифинг по политике в отношении учителей информатики: набор, удержание и развитие. Королевское общество.
Сибиета, Л. (2018). Рынок труда учителей в Англии: дефицит, предметная экспертиза и стимулы. Институт образовательной политики.
Приложение A – Результаты моделирования анализа прогрессии
Таблица A1. Линейный модельный вывод для связи между средним баллом GCSE и результатами уровня A между годами. Модель включает контрольные переменные для этнической группы, права на FSM, языковой группы, пола, статуса SEN и типа центра, коэффициенты не показаны.
Переменная | Коэффициент | ЮВ | p-значение |
---|---|---|---|
Стандартизированный балл KS2 | 0,353 | 0,014 | <0,001 |
Стандартизированный средний балл GCSE | 0,806 | 0,012 | <0,001 |
Год 2015 [2014] | 0,116 | 0,056 | <0,05 |
Год 2016 [2014] | 0,049 | 0,051 | 0,336 |
Год 2017 [2014] | 0,107 | 0,051 | <0,05 |
Предельный r-квадрат | 0,391 |
Условный R-квадрат | 0,473 |
N студентов | 12,103 |
N-центры | 1,778 |
Приложение B – Результаты моделирования с течением времени
Таблица B1. Сводка эффектов модели года из различных моделей с использованием предыдущих достижений. Подробности см. в тексте.
Модель | Ограничение | Коэффициент 2019 года [Ref 2014] (SE) | Расчетная разница в результатах по сравнению с 2014 годом, прогнозируемая для когорты 2019 года |
---|---|---|---|
Линейный | Все центры | -0,12 (0,01)*** | -0,15 |
Линейный | За исключением новых центров | -0,35 (0,04)*** | -0,39 |
Линейный | только центры 2014 года | -0,24 (0,05)*** | -0,27 |
Линейный | только центры 2015 года | -0,25 (0,03)*** | -0,28 |
Класс А/7 | Все центры | -0,02 (0,03) | 0,19пп |
Класс А/7 | За исключением новых центров | -0,28 (0,07)*** | -2,75пп |
Класс А/7 | только центры 2014 года | -0,23 (0,08)** | -4.27пп |
Класс А/7 | только центры 2015 года | -0,11 (0,06) | -2.04пп |
Класс C/4 | Все центры | -0,08 (0,03)** | -1,81пп |
Класс C/4 | За исключением новых центров | -0,53 (0,08)*** | -10.47пп |
Класс C/4 | только центры 2014 года | -0,21 (0,10)* | -3,85пп |
Класс C/4 | только центры 2015 года | -0,24 (0,06)*** | -4.30пп |
Г/1 класс | Все центры | -0,05 (0,07) | -0,06пп |
Г/1 класс | За исключением новых центров | -0,91 (0,30)** | -0,53пп |
Г/1 класс | только центры 2014 года | -0,24 (0,38) | 0.00пп |
Г/1 класс | только центры 2015 года | -0,02 (0,20) | -0,06пп |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B2. Подробный вывод модели для линейных моделей предшествующих достижений. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,054 (0,039) | NA | NA | NA |
Год 2013 [2019] | 0,071 (0,026)** | NA | NA | NA |
Год 2014 [2019] | 0,128 (0,014)*** | 0,35 (0,038)*** | 0,241 (0,045)*** | NA |
Год 2015 [2019] | 0,129 (0,012)*** | 0,296 (0,025)*** | 0,223 (0,046)*** | 0,248 (0,03)*** |
Год 2016 [2019] | 0,105 (0,009)*** | 0,176 (0,013)*** | 0,031 (0,042) | 0,167 (0,027)*** |
Год 2017 [2019] | 0,059 (0,008)*** | 0,08 (0,01)*** | -0,171 (0,042)*** | -0,012 (0,027) |
Год 2018 [2019] | -0,025 (0,008)** | -0,035 (0,009)*** | -0,059 (0,042) | -0,097 (0,027)*** |
Стандартизированный балл KS2 | 1,069 (0,003)*** | 1,118 (0,004)*** | 0,995 (0,015)*** | 1,031 (0,01)*** |
R-квадрат (предельный/условный) | 0,36/0,46 | 0,39/0,49 | 0,38/0,45 | 0,38/0,47 |
N (студенты/центры) | 297,014/3,432 | 173,787/2,662 | 12,198/85 | 26,238/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B3. Подробный вывод модели для биномиальных моделей предшествующих достижений A/7. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,317 (0,071)*** | NA | NA | NA |
Год 2013 [2019] | -0,101 (0,049)* | NA | NA | NA |
Год 2014 [2019] | -0,019 (0,028) | 0,283 (0,069)*** | 0,233 (0,084)** | NA |
Год 2015 [2019] | -0,091 (0,023)*** | 0,139 (0,048)** | 0,186 (0,086)* | 0,111 (0,057) |
Год 2016 [2019] | 0,062 (0,018)*** | 0,184 (0,027)*** | 0,157 (0,079)* | 0,241 (0,052)*** |
Год 2017 [2019] | 0,018 (0,017) | 0,065 (0,021)** | 0,032 (0,08) | 0,092 (0,052) |
Год 2018 [2019] | -0,009 (0,017) | -0,011 (0,018) | -0,048 (0,079) | -0,102 (0,052)* |
Стандартизированный балл KS2 | 1,45 (0,008)*** | 1,511 (0,01)*** | 1,338 (0,034)*** | 1,401 (0,024)*** |
R-квадрат (предельный/условный) | 0,39/0,48 | 0,41/0,5 | 0,38/0,44 | 0,4/0,47 |
N (студенты/центры) | 297,014/3,432 | 173,787/2,662 | 12,198/85 | 26,238/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B4. Подробный вывод модели для биномиальных моделей предшествующего уровня знаний C/4. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,125 (0,077) | NA | NA | NA |
Год 2013 [2019] | -0,025 (0,048) | NA | NA | NA |
Год 2014 [2019] | 0,081 (0,026)** | 0,525 (0,082)*** | 0,211 (0,101)* | NA |
Год 2015 [2019] | 0,084 (0,021)*** | 0,363 (0,051)*** | 0,067 (0,1) | 0,244 (0,062)*** |
Год 2016 [2019] | 0,002 (0,015) | 0,085 (0,025)*** | -0,243 (0,088)** | 0,031 (0,055) |
Год 2017 [2019] | -0,052 (0,015)*** | -0,024 (0,019) | -0,578 (0,087)*** | -0,196 (0,055)*** |
Год 2018 [2019] | -0,04 (0,015)** | -0,055 (0,016)*** | -0,206 (0,09)* | -0,21 (0,055)*** |
Стандартизированный балл KS2 | 1,419 (0,007)*** | 1,512 (0,009)*** | 1,408 (0,037)*** | 1,412 (0,024)*** |
R-квадрат (предельный/условный) | 0,39/0,5 | 0,43/0,52 | 0,44/0,53 | 0,43/0,52 |
N (студенты/центры) | 297,014/3,432 | 173,787/2,662 | 12,198/85 | 26,238/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B5. Подробный вывод модели для биномиальных моделей предшествующих достижений G/1. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | 0,17 (0,251) | NA | NA | NA |
Год 2013 [2019] | -0,136 (0,125) | NA | NA | NA |
Год 2014 [2019] | 0,051 (0,068) | 0,907 (0,305)** | 0,238 (0,385) | NA |
Год 2015 [2019] | 0,159 (0,057)** | 0,499 (0,153)** | 0,218 (0,385) | 0,024 (0,2) |
Год 2016 [2019] | -0,107 (0,037)** | -0,036 (0,061) | -0,775 (0,288)** | -0,374 (0,175)* |
Год 2017 [2019] | -0,174 (0,035)*** | -0,172 (0,046)*** | -1,176 (0,273)*** | -0,935 (0,16)*** |
Год 2018 [2019] | 0,012 (0,036) | -0,027 (0,04) | -0,477 (0,303) | -0,418 (0,172)* |
Стандартизированный балл KS2 | 1,177 (0,014)*** | 1,279 (0,019)*** | 1,159 (0,086)*** | 1,216 (0,057)*** |
R-квадрат (предельный/условный) | 0,34/0,52 | 0,38/0,52 | 0,92/0,95 | 0,65/0,76 |
N (студенты/центры) | 297,014/3,432 | 173,787/2,662 | 12,198/85 | 26,238/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B6. Подробный вывод модели для линейных моделей параллельного достижения. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,005 (0,029) | NA | NA | NA |
Год 2013 [2019] | 0,127 (0,02)*** | NA | NA | NA |
Год 2014 [2019] | 0,117 (0,011)*** | 0,411 (0,027)*** | 0,314 (0,034)*** | NA |
Год 2015 [2019] | 0,128 (0,008)*** | 0,35 (0,017)*** | 0,257 (0,032)*** | 0,331 (0,021)*** |
Год 2016 [2019] | 0,097 (0,006)*** | 0,208 (0,01)*** | 0,078 (0,031)* | 0,237 (0,02)*** |
Год 2017 [2019] | 0,046 (0,006)*** | 0,076 (0,007)*** | -0,128 (0,031)*** | 0,008 (0,02) |
Год 2018 [2019] | -0,018 (0,006)** | -0,021 (0,006)*** | -0,063 (0,031)* | -0,051 (0,02)* |
Стандартизированный средний балл GCSE | 1,592 (0,002)*** | 1,625 (0,003)*** | 1,485 (0,011)*** | 1,527 (0,007)*** |
R-квадрат (предельный/условный) | 0,65/0,7 | 0,68/0,73 | 0,64/0,68 | 0,65/0,7 |
N (студенты/центры) | 321,117/3,442 | 185,439/2,654 | 13,663/84 | 28,408/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B7. Подробный вывод модели для биномиальных моделей параллельного обучения A/7. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,356 (0,084)*** | NA | NA | NA |
Год 2013 [2019] | -0,058 (0,059) | NA | NA | NA |
Год 2014 [2019] | 0,024 (0,033) | 0,476 (0,08)*** | 0,4 (0,097)*** | NA |
Год 2015 [2019] | -0,064 (0,025)* | 0,308 (0,052)*** | 0,257 (0,093)** | 0,3 (0,063)*** |
Год 2016 [2019] | 0,114 (0,021)*** | 0,328 (0,031)*** | 0,255 (0,091)** | 0,441 (0,061)*** |
Год 2017 [2019] | 0,031 (0,02) | 0,1 (0,025)*** | 0,046 (0,092) | 0,127 (0,062)* |
Год 2018 [2019] | -0,021 (0,019) | -0,018 (0,022) | -0,078 (0,091) | -0,118 (0,061) |
Стандартизированный средний балл GCSE | 3,064 (0,013)*** | 3,2 (0,018)*** | 2,911 (0,055)*** | 3,036 (0,04)*** |
R-квадрат (предельный/условный) | 0,71/0,75 | 0,73/0,77 | 0,7/0,72 | 0,71/0,75 |
N (студенты/центры) | 321,117/3,442 | 185,439/2,654 | 13,663/84 | 28,408/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B8. Подробный вывод модели для биномиальных моделей параллельного достижения C/4. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | -0,05 (0,091) | NA | NA | NA |
Год 2013 [2019] | 0,079 (0,059) | NA | NA | NA |
Год 2014 [2019] | 0,061 (0,03)* | 0,769 (0,095)*** | 0,389 (0,113)*** | NA |
Год 2015 [2019] | 0,11 (0,022)*** | 0,657 (0,056)*** | 0,269 (0,107)* | 0,568 (0,068)*** |
Год 2016 [2019] | -0,01 (0,018) | 0,181 (0,03)*** | -0,195 (0,099)* | 0,206 (0,065)** |
Год 2017 [2019] | -0,087 (0,017)*** | -0,046 (0,023)* | -0,659 (0,098)*** | -0,196 (0,063)** |
Год 2018 [2019] | -0,021 (0,017) | -0,032 (0,019) | -0,24 (0,1)* | -0,141 (0,063)* |
Стандартизированный средний балл GCSE | 2,994 (0,012)*** | 3,231 (0,017)*** | 2,849 (0,059)*** | 2,941 (0,041)*** |
R-квадрат (предельный/условный) | 0,69/0,75 | 0,73/0,78 | 0,69/0,74 | 0,7/0,75 |
N (студенты/центры) | 321,117/3,442 | 185,439/2,654 | 13,663/84 | 28,408/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )
Таблица B9. Подробный вывод модели для биномиальных моделей параллельного обучения G/1. Управляющие переменные характеристик студента и центра не показаны, подробности см. в тексте.
Переменная | М1 (все центры) | М2 (новых центров нет) | M3 (те же центры 2014) | М4 (те же центры 2015) |
---|---|---|---|---|
Год 2012 [2019] | 0,235 (0,275) | NA | NA | NA |
Год 2013 [2019] | 0,016 (0,15) | NA | NA | NA |
Год 2014 [2019] | -0,088 (0,074) | 0,921 (0,325)** | 0,279 (0,393) | NA |
Год 2015 [2019] | 0,057 (0,056) | 0,546 (0,154)*** | 0,196 (0,355) | 0,216 (0,198) |
Год 2016 [2019] | -0,205 (0,041)*** | -0,005 (0,068) | -0,744 (0,292)* | -0,211 (0,181) |
Год 2017 [2019] | -0,248 (0,038)*** | -0,226 (0,051)*** | -1,264 (0,278)*** | -0,886 (0,165)*** |
Год 2018 [2019] | 0,014 (0,039) | -0,002 (0,044) | -0,524 (0,305) | -0,227 (0,177) |
Стандартизированный средний балл GCSE | 2,533 (0,02)*** | 2,761 (0,029)*** | 2,319 (0,12)*** | 2,525 (0,082)*** |
R-квадрат (предельный/условный) | 0,61/0,71 | 0,66/0,73 | 0,93/0,95 | 0,72/0,79 |
N (студенты/центры) | 321,117/3,442 | 185,439/2,654 | 13,663/84 | 28,408/203 |
Примечание: статистическая значимость обозначена как p<0,001 ( *** ), p<0,01 ( ** ), p<0,05 ( * )