Компьютеризированное адаптивное тестирование ( CAT ) — это форма компьютерного теста, которая адаптируется к уровню способностей испытуемого. По этой причине его также называют адаптированным тестированием . Другими словами, это форма компьютерного теста , в котором следующий элемент или набор элементов, выбранных для проведения, зависит от правильности ответов испытуемого на самые последние введенные элементы. [1]
CAT последовательно выбирает вопросы с целью максимизации точности экзамена на основе того, что известно об экзаменуемом из предыдущих вопросов. [2] С точки зрения экзаменуемого, сложность экзамена, по-видимому, подстраивается под уровень его способностей. Например, если экзаменуемый хорошо справляется с заданием средней сложности, ему будет предложен более сложный вопрос. Или, если он справился плохо, ему будет предложен более простой вопрос. По сравнению со статическими тестами, которые почти все прошли, с фиксированным набором заданий, предлагаемых всем экзаменуемым, компьютерно-адаптивные тесты требуют меньше тестовых заданий для получения одинаково точных оценок. [2]
Базовый метод компьютерно-адаптивного тестирования представляет собой итеративный алгоритм со следующими шагами: [3]
До предоставления первого задания об испытуемом ничего не известно, поэтому алгоритм обычно начинается с выбора задания средней или средне-легкой сложности в качестве первого задания. [ необходима ссылка ]
В результате адаптивного администрирования разные испытуемые получают совершенно разные тесты. [4] Хотя испытуемым обычно дают разные тесты, их баллы за способности сопоставимы друг с другом (т. е. как если бы они получили один и тот же тест, как это часто бывает в тестах, разработанных с использованием классической теории тестов). Психометрическая технология, которая позволяет вычислять справедливые баллы по разным наборам элементов, — это теория ответов на элементы (IRT). IRT также является предпочтительной методологией для выбора оптимальных элементов, которые обычно выбираются на основе информации , а не сложности как таковой. [3]
Связанная методология, называемая многоэтапным тестированием (MST) или CAST, используется в Едином экзамене на получение диплома сертифицированного бухгалтера . MST позволяет избежать или уменьшить некоторые недостатки CAT, как описано ниже. [5]
Метод CAT существует с 1970-х годов, и в настоящее время его используют во многих оценках .
Кроме того, список активных экзаменов CAT можно найти на сайте Международной ассоциации компьютерного адаптивного тестирования [7] , а также список текущих исследовательских программ CAT и почти полную библиографию всех опубликованных исследований CAT.
Адаптивные тесты могут обеспечить одинаково точные результаты для большинства тестируемых. [3] Напротив, стандартные фиксированные тесты почти всегда обеспечивают наилучшую точность для тестируемых со средними способностями и все более низкую точность для тестируемых с более экстремальными результатами. [ необходима ссылка ]
Адаптивный тест обычно можно сократить на 50% и при этом сохранить более высокий уровень точности , чем фиксированная версия. [2] Это означает экономию времени для тестируемого. Тестируемые не тратят свое время на попытки выполнить слишком сложные или тривиально легкие задания. Кроме того, организация тестирования выигрывает от экономии времени; стоимость времени, затрачиваемого на место экзаменуемого, существенно снижается. Однако, поскольку разработка CAT требует гораздо больших затрат, чем стандартный тест фиксированной формы, для того, чтобы программа тестирования CAT была финансово плодотворной, необходимо большое количество людей. [ требуется ссылка ]
Большие целевые группы населения, как правило, могут быть представлены в научных и исследовательских областях. Тестирование CAT в этих аспектах может использоваться для выявления раннего начала инвалидности или заболеваний. Рост тестирования CAT в этих областях значительно увеличился за последние 10 лет. Тестирование CAT, которое ранее не принималось в медицинских учреждениях и лабораториях, теперь поощряется в сфере диагностики. [ необходима цитата ]
Как и любой компьютерный тест , адаптивные тесты могут показывать результаты сразу после тестирования. [ необходима цитата ]
Адаптивное тестирование, в зависимости от алгоритма выбора элементов , может уменьшить воздействие некоторых элементов, поскольку испытуемые обычно получают разные наборы элементов, а не всю популяцию, получающую один набор. Однако оно может увеличить воздействие других (а именно, средних или средних/легких элементов, представленных большинству испытуемых в начале теста). [3]
Первая проблема, с которой сталкиваются в CAT, — это калибровка пула элементов. Чтобы смоделировать характеристики элементов (например, выбрать оптимальный элемент), все элементы теста должны быть предварительно заданы для значительной выборки, а затем проанализированы. Для достижения этого новые элементы должны быть смешаны с рабочими элементами экзамена (ответы регистрируются, но не влияют на баллы испытуемых), что называется «пилотным тестированием», «предварительным тестированием» или «засеванием». [3] Это представляет логистические, этические и проблемы безопасности. Например, невозможно провести рабочий адаптивный тест с совершенно новыми, невиданными элементами; [8] все элементы должны быть предварительно проверены с достаточно большой выборкой, чтобы получить стабильную статистику элементов . Эта выборка может быть размером до 1000 экзаменуемых. [8] Каждая программа должна решить, какой процент теста может быть разумно составлен из неоцененных пилотных элементов теста. [ требуется ссылка ]
Хотя адаптивные тесты имеют алгоритмы контроля экспозиции , чтобы предотвратить чрезмерное использование нескольких элементов, [3] экспозиция, обусловленная способностью, часто не контролируется и может легко приблизиться к 1. То есть, некоторые элементы часто становятся очень распространенными в тестах для людей с одинаковыми способностями. Это серьезная проблема безопасности, поскольку группы, совместно использующие элементы, могут иметь схожий уровень функциональных способностей. Фактически, полностью рандомизированный экзамен является наиболее безопасным (но и наименее эффективным). [ необходима цитата ]
Обзор прошлых заданий, как правило, запрещен, так как адаптивные тесты, как правило, предлагают более легкие задания после неправильного ответа. Предположительно, проницательный испытуемый может использовать такие подсказки для обнаружения неправильных ответов и исправления их. Или испытуемых можно научить намеренно выбирать большее количество неправильных ответов, что приведет к все более легкому тесту. После того, как адаптивный тест был обманут и построен максимально легким экзаменом, они могли бы просмотреть задания и ответить на них правильно — возможно, достигнув очень высокого балла. Тестируемые часто жалуются на невозможность повторить. [9]
Из-за сложности разработка CAT имеет ряд предпосылок. [10] Должны присутствовать большие размеры выборки (обычно сотни испытуемых), требуемые калибровками IRT. Элементы должны поддаваться оценке в реальном времени, если новый элемент должен быть выбран мгновенно. Для предоставления документации о валидности необходимы психометристы, имеющие опыт в калибровках IRT и исследовании моделирования CAT . Наконец, должна быть доступна программная система, способная выполнять настоящую CAT на основе IRT. [ необходима цитата ]
В CAT с ограничением по времени экзаменуемый не может точно рассчитать время, которое он может потратить на каждый пункт теста, и определить, успевает ли он пройти часть теста с ограничением по времени. Таким образом, экзаменуемые могут быть оштрафованы за то, что потратили слишком много времени на сложный вопрос, представленный в начале раздела, а затем не ответили на достаточное количество вопросов, чтобы точно оценить свои знания в областях, которые остались непроверенными, когда время истекло. [11] В то время как не ограниченные по времени CAT являются прекрасными инструментами для формативных оценок , которые направляют последующее обучение, ограниченные по времени CAT не подходят для высокоуровневых итоговых оценок, используемых для измерения способностей к работе и образовательным программам. [ требуется ссылка ]
Существует пять технических компонентов в построении CAT (следующее адаптировано из Weiss & Kingsbury, 1984 [2] ). Этот список не включает практические вопросы, такие как предварительное тестирование элементов или полевой выпуск в реальном времени.
Для CAT должен быть доступен набор элементов, из которых можно выбирать. [2] Такие элементы могут быть созданы традиционным способом (т. е. вручную) или посредством автоматической генерации элементов . Набор должен быть откалиброван с помощью психометрической модели, которая используется в качестве основы для остальных четырех компонентов. Обычно в качестве психометрической модели используется теория реакции элемента . [2] Одна из причин популярности теории реакции элемента заключается в том, что она помещает людей и элементы в одну и ту же метрику (обозначаемую греческой буквой тета ), что полезно для решения проблем при выборе элементов (см. ниже). [ необходима цитата ]
В CAT задания выбираются на основе результатов экзаменуемого до определенного момента в тесте. Однако CAT, очевидно, не может сделать какую-либо конкретную оценку способностей экзаменуемого, если не было предложено никаких заданий. Поэтому необходима какая-то другая начальная оценка способностей экзаменуемого. Если известна некоторая предыдущая информация об экзаменуемом, ее можно использовать, [2] но часто CAT просто предполагает, что экзаменуемый имеет средние способности – поэтому первый пункт часто имеет средний уровень сложности. [ требуется ссылка ]
Как упоминалось ранее, теория ответов на вопросы размещает испытуемых и вопросы на одной и той же метрике. Поэтому, если у CAT есть оценка способностей испытуемого, он может выбрать вопрос, который наиболее соответствует этой оценке. [8] Технически это делается путем выбора вопроса с наибольшей информацией на данный момент. [2] Информация является функцией параметра дискриминации вопроса, а также условной дисперсии и параметра псевдоугадывания (если используется). [ необходима цитата ]
После того, как тест введен, CAT обновляет свою оценку уровня способностей испытуемого. Если испытуемый ответил на тест правильно, CAT, скорее всего, оценит его способности несколько выше, и наоборот. Это делается с помощью функции ответа на тест из теории ответа на тест для получения функции правдоподобия способностей испытуемого. Два метода для этого называются оценкой максимального правдоподобия и байесовской оценкой . Последняя предполагает априорное распределение способностей испытуемого и имеет два обычно используемых оценщика: ожидание апостериори и максимум апостериори . Максимальное правдоподобие эквивалентно байесовской максимальной апостериорной оценке, если предполагается равномерная априорная вероятность ( f (x)=1). [8] Максимальное правдоподобие асимптотически несмещено, но не может обеспечить оценку тета для несмешанного (все правильные или неправильные) вектора ответов, в этом случае может потребоваться временное использование байесовского метода. [2]
Алгоритм CAT предназначен для многократного применения элементов и обновления оценки способностей испытуемого. Это будет продолжаться до тех пор, пока пул элементов не будет исчерпан, если в CAT не будет включен критерий завершения. Часто тест завершается, когда стандартная ошибка измерения испытуемого падает ниже определенного значения, указанного пользователем, отсюда и утверждение выше о том, что преимущество заключается в том, что баллы испытуемого будут одинаково точными или «равноточными». [2] Существуют и другие критерии завершения для различных целей теста, например, если тест разработан только для определения того, должен ли испытуемый «сдать» или «провалить» тест, а не для получения точной оценки его способностей. [2] [12]
Во многих ситуациях целью теста является классификация экзаменуемых по двум или более взаимоисключающим и исчерпывающим категориям. Это включает в себя общий «тест на мастерство», где две классификации — «сдал» и «не сдал», но также включает в себя ситуации, когда есть три или более классификаций, такие как «недостаточный», «базовый» и «продвинутый» уровни знаний или компетенции. Тип «адаптивного на уровне элементов» CAT, описанный в этой статье, наиболее подходит для тестов, которые не являются «сдал/не сдал» или для тестов сдал/не сдал, где предоставление хорошей обратной связи чрезвычайно важно. Некоторые модификации необходимы для CAT сдал/не сдал, также известного как компьютеризированный классификационный тест (CCT) . [12] Для экзаменуемых с истинными баллами, очень близкими к проходному баллу, компьютеризированные классификационные тесты приведут к длинным тестам, в то время как у тех, чьи истинные баллы намного выше или ниже проходного балла, будут самые короткие экзамены. [ требуется ссылка ]
Например, необходимо применить новый критерий завершения и алгоритм оценки, который классифицирует испытуемого по категории, а не предоставляет точечную оценку способностей. Для этого доступны две основные методологии. Наиболее известной из них является последовательный тест отношения вероятностей (SPRT). [13] [14] Это формулирует проблему классификации испытуемого как проверку гипотезы о том, что способности испытуемого равны либо некоторой указанной точке выше пропущенного балла, либо другой указанной точке ниже пропущенного балла. Обратите внимание, что это формулировка точечной гипотезы, а не формулировка составной гипотезы [15] , которая более концептуально уместна. Формулировка составной гипотезы будет заключаться в том, что способности испытуемого находятся в области выше пропущенного балла или в области ниже пропущенного балла. [ требуется ссылка ]
Также используется подход доверительного интервала , когда после каждого задания алгоритм определяет вероятность того, что истинный балл экзаменуемого выше или ниже проходного балла. [16] [17] Например, алгоритм может продолжать работу до тех пор, пока 95% доверительный интервал для истинного балла больше не будет содержать проходной балл. В этот момент дополнительные задания не нужны, поскольку решение о сдаче или провале уже на 95% точное, если предположить, что психометрические модели, лежащие в основе адаптивного тестирования, соответствуют экзаменуемому и тесту. Этот подход изначально назывался «адаптивным тестированием мастерства» [16], но его можно применять к неадаптивным ситуациям выбора и классификации элементов с двумя или более проходными баллами (типичный тест мастерства имеет один проходной балл). [17]
На практике алгоритм обычно программируется на минимальную и максимальную длину теста (или минимальное и максимальное время администрирования). В противном случае, было бы возможно, чтобы испытуемый со способностями, очень близкими к проходному баллу, был назначен каждому пункту в банке без принятия решения алгоритмом. [ необходима цитата ]
Используемый алгоритм выбора элемента зависит от критерия завершения. Максимизация информации в срезе больше подходит для SPRT, поскольку она максимизирует разницу в вероятностях, используемых в отношении правдоподобия . [18] Максимизация информации в оценке способности больше подходит для подхода доверительного интервала, поскольку она минимизирует условную стандартную ошибку измерения, что уменьшает ширину доверительного интервала, необходимого для классификации. [17]
Исследователь ETS Марта Стокинг пошутила, что большинство адаптивных тестов на самом деле едва ли являются адаптивными тестами (BAT), поскольку на практике на выбор элементов накладывается множество ограничений. Например, экзамены CAT обычно должны соответствовать спецификациям содержания; [3] вербальный экзамен может потребоваться составить из равного количества типов элементов аналогий, заполнения пропусков и синонимов. У CAT обычно есть некоторая форма ограничений экспозиции элементов, [3] чтобы предотвратить переэкспонирование наиболее информативных элементов. Кроме того, в некоторых тестах делается попытка сбалансировать поверхностные характеристики элементов, такие как пол людей в элементах или этническая принадлежность, подразумеваемая их именами. Таким образом, экзамены CAT часто ограничены в том, какие элементы они могут выбирать, и для некоторых экзаменов ограничения могут быть существенными и требовать сложных стратегий поиска (например, линейного программирования ) для поиска подходящих элементов. [ необходима цитата ]
Простым методом контроля экспозиции элементов является «случайный» или метод страт . Вместо того, чтобы выбирать наиболее информативный элемент в каждой точке теста, алгоритм случайным образом выбирает следующий элемент из следующих пяти или десяти наиболее информативных элементов. Это можно использовать на протяжении всего теста или только в начале. [3] Другим методом является метод Симпсона-Хеттера, [19] в котором случайное число берется из U(0,1) и сравнивается с параметром k i , определенным для каждого элемента пользователем теста. Если случайное число больше k i , рассматривается следующий наиболее информативный элемент. [3]
Вим ван дер Линден и коллеги [20] выдвинули альтернативный подход, называемый теневым тестированием , который включает создание целых теневых тестов как часть выбора элементов. Выбор элементов из теневых тестов помогает адаптивным тестам соответствовать критериям выбора, фокусируясь на глобально оптимальных вариантах (в отличие от вариантов, которые являются оптимальными для данного элемента ). [ необходима цитата ]
Учитывая набор элементов, многомерный компьютерный адаптивный тест (MCAT) выбирает эти элементы из банка в соответствии с предполагаемыми способностями студента, в результате чего тест становится индивидуальным. MCAT стремятся максимизировать точность теста, основываясь на множественных одновременных способностях экзамена (в отличие от компьютерного адаптивного теста – CAT – который оценивает одну способность) с использованием последовательности элементов, на которые ранее были даны ответы (Piton-Gonçalves & Aluísio 2012). [ необходима цитата ]
{{cite conference}}
: CS1 maint: дата и год ( ссылка )