Автоматическая генерация элементов ( AIG ) или автоматизированная генерация элементов — это процесс, связывающий психометрию с компьютерным программированием. Он использует компьютерный алгоритм для автоматического создания тестовых элементов , которые являются основными строительными блоками психологического теста . Метод был впервые описан Джоном Р. Бормутом [1] в 1960-х годах, но не был разработан до недавнего времени. AIG использует двухэтапный процесс: сначала специалист по тестированию создает шаблон, называемый моделью элемента; затем разрабатывается компьютерный алгоритм для генерации тестовых элементов. [2] Таким образом, вместо того, чтобы специалист по тестированию писал каждый отдельный элемент, компьютерные алгоритмы генерируют семейства элементов из меньшего набора моделей родительских элементов. [3] [4] [5] Совсем недавно нейронные сети, включая большие языковые модели, такие как семейство GPT, успешно использовались для автоматической генерации элементов. [6] [7]
В психологическом тестировании ответы испытуемого на тестовые задания предоставляют объективные данные измерений для различных человеческих характеристик. [8] Некоторые характеристики, измеряемые психологическими и образовательными тестами, включают академические способности, успеваемость в школе, интеллект , мотивацию и т. д., и эти тесты часто используются для принятия решений, которые имеют значительные последствия для отдельных лиц или групп лиц. Достижение стандартов качества измерений, таких как валидность теста , является одной из важнейших целей для психологов и педагогов. [9] AIG — это подход к разработке тестов, который можно использовать для поддержания и улучшения качества тестов экономически в современной среде, где компьютеризированное тестирование увеличило потребность в большом количестве тестовых заданий. [5]
AIG снижает стоимость создания стандартизированных тестов , [10] поскольку алгоритмы могут генерировать гораздо больше элементов за определенное время, чем специалист по тестированию. Он может быстро и легко создавать параллельные формы тестов, которые позволяют разным испытуемым подвергаться различным группам тестовых элементов с одинаковым уровнем сложности или трудности, тем самым повышая безопасность тестирования. [3] В сочетании с компьютерным адаптивным тестированием AIG может генерировать новые элементы или выбирать, какие уже сгенерированные элементы должны быть введены следующими, основываясь на способностях испытуемого во время проведения теста. Также ожидается, что AIG будет создавать элементы с широким диапазоном сложности, меньшим количеством ошибок в построении и, как ожидается, обеспечит более высокую сопоставимость элементов из-за более систематического определения модели прототипического элемента. [3] [11] [12]
Разработка тестов (включая AIG) может быть обогащена, если она основана на какой-либо когнитивной теории. Когнитивные процессы, взятые из данной теории, часто сопоставляются с характеристиками элементов во время их построения. Целью этого является предопределение заданного психометрического параметра, такого как сложность элемента (далее: β ). Пусть радикалы [11] будут теми структурными элементами, которые существенно влияют на параметры элемента и предоставляют элементу определенные когнитивные требования. Один или несколько радикалов модели элемента можно манипулировать, чтобы создать родительские модели элементов с различными уровнями параметров (например, β ). Затем каждый родитель может вырастить свою собственную семью, манипулируя другими элементами, которые Ирвин [11] назвал случайными . Случайные элементы — это поверхностные характеристики, которые претерпевают случайные изменения от элемента к элементу в пределах одного семейства. Элементы, которые имеют одинаковую структуру радикалов и отличаются только случайными элементами, обычно обозначаются как изоморфы [13] или клоны . [14] [15] Может быть два вида клонирования предметов: с одной стороны, модель предмета может состоять из предмета с одним или несколькими открытыми местами, и клонирование выполняется путем заполнения каждого места элементом, выбранным из списка возможностей. С другой стороны, модель предмета может быть целым предметом, который клонируется путем введения преобразований, например, изменения угла объекта тестов пространственных способностей. [16] Изменение характеристик поверхности этих предметов не должно существенно влиять на ответы испытуемого. Вот почему считается, что случайные факторы вызывают лишь незначительные различия между параметрами предметов изоморфов. [3]
Ряд генераторов предметов прошли объективную проверочную проверку.
MathGen — это программа, которая генерирует задания для проверки математических достижений. В статье 2018 года для Journal of Educational Measurement авторы Эмбретсон и Кингстон провели обширный качественный обзор и эмпирические испытания для оценки качественных и психометрических свойств сгенерированных заданий, заключив, что задания были успешными и что задания, сгенерированные из той же структуры заданий, имели предсказуемые психометрические свойства. [17] [18]
Тест на мелодическую дискриминацию, разработанный с помощью вычислительной модели Rachman-Jun 2015 [19], был предложен участникам исследования 2017 года. Согласно данным, собранным PM Harrison et al., результаты демонстрируют высокую валидность и надежность. [20]
Феррейра и Бэкхофф-Эскудеро [21] создали две параллельные версии экзамена по базовым компетенциям (Excoba), общего теста образовательных навыков, используя разработанную ими программу под названием GenerEx. Затем они изучили внутреннюю структуру, а также психометрическую эквивалентность созданных тестов. Эмпирические результаты психометрического качества в целом благоприятны, а тесты и пункты согласованы, как измерено несколькими психометрическими индексами.
Гирл и его коллеги [22] [23] [24] [25] использовали программу AIG под названием «Генератор элементов» (IGOR [26] ) для создания вопросов с множественным выбором, которые проверяют медицинские знания. Вопросы, созданные IGOR, даже по сравнению с вопросами, разработанными вручную, показали хорошие психометрические свойства.
Arendasy, Sommer и Mayr [27] использовали AIG для создания вербальных элементов для проверки вербальной беглости на немецком и английском языках, предлагая их немецко- и англоговорящим участникам соответственно. Сгенерированные компьютером элементы показали приемлемые психометрические свойства. Наборы элементов, предложенные этим двум группам, были основаны на общем наборе межъязыковых опорных элементов, что облегчало кросс-лингвистические сравнения производительности.
Холлинг, Бертлинг и Цойх [28] использовали теорию вероятности для автоматического создания математических текстовых задач с ожидаемыми трудностями. Они достигли соответствия модели Раша [29] , а трудности элементов можно было объяснить с помощью линейной логистической тестовой модели (LLTM [30] ), а также с помощью случайных эффектов LLTM. Холлинг, Бланк, Кухенбекер и Кун [31] провели похожее исследование со статистическими текстовыми задачами, но без использования AIG. Арендази и его коллеги [32] [33] представили исследования по автоматически сгенерированным алгебраическим текстовым задачам и рассмотрели, как структура контроля качества AIG может повлиять на качество измерения элементов.
Item Maker (IMak) — это программа, написанная на языке программирования R для построения фигуральных аналоговых элементов. Психометрические свойства 23 элементов, сгенерированных IMak, оказались удовлетворительными, а сложность элементов, основанная на генерации правил, могла быть предсказана с помощью линейной логистической тестовой модели (LLTM). [3]
MazeGen — еще одна программа, написанная на R, которая автоматически генерирует лабиринты. Психометрические свойства 18 таких лабиринтов оказались оптимальными, включая соответствие модели Раша и прогнозирование сложности лабиринта LLTM. [34]
GeomGen — это программа, которая генерирует фигуральные матрицы. [35] Исследование, которое выявило источники смещения измерения, связанные со стратегиями устранения ответов для элементов фигуральной матрицы, пришло к выводу, что заметность отвлекающих факторов благоприятствует достижению стратегий устранения ответов и что эти знания могут быть включены в AIG для улучшения конструктной валидности таких элементов. [36] Та же группа использовала AIG для изучения дифференциального функционирования элементов (DIF) и гендерных различий, связанных с ментальным вращением . Они манипулировали особенностями дизайна элементов, которые демонстрировали гендерный DIF в предыдущих исследованиях, и они показали, что оценки размера эффекта гендерных различий были скомпрометированы наличием различных видов гендерного DIF, которые могли быть связаны с конкретными особенностями дизайна элементов. [37] [38]
Arendasy также изучал возможные нарушения психометрического качества, выявленные с помощью теории отклика на элемент (IRT) автоматически сгенерированных визуально-пространственных рассуждений. Для этой цели он представил две программы, а именно: уже упомянутую GeomGen [35] и Endless Loop Generator (EsGen). Он пришел к выводу, что GeomGen больше подходит для AIG, поскольку принципы IRT могут быть включены во время генерации элементов. [39] В параллельном исследовательском проекте с использованием GeomGen Arendasy и Sommer [40] обнаружили, что изменение перцептивной организации элементов может влиять на производительность респондентов в зависимости от уровня их способностей и что это влияет на несколько показателей психометрического качества. С этими результатами они поставили под сомнение предположение об одномерности элементов фигуральной матрицы в целом.
MatrixDeveloper [41] использовался для автоматической генерации двадцати пяти элементов квадратной матрицы 4x4. Эти элементы были предложены 169 людям. Согласно результатам исследования, элементы хорошо соответствуют модели Раша , а генерация на основе правил может объяснить сложность элемента. [42]
Первый известный генератор матрицы элементов был разработан Эмбретсон [43] [14], и ее автоматически сгенерированные элементы продемонстрировали хорошие психометрические свойства, как это показали Эмбретсон и Рейз. [44] Она также предложила модель для адекватной генерации элементов онлайн.