Автоматическая генерация предметов

Область изучения психологии

Автоматическая генерация элементов ( AIG ) или автоматизированная генерация элементов — это процесс, связывающий психометрию с компьютерным программированием. Он использует компьютерный алгоритм для автоматического создания тестовых элементов , которые являются основными строительными блоками психологического теста . Метод был впервые описан Джоном Р. Бормутом [1] в 1960-х годах, но не был разработан до недавнего времени. AIG использует двухэтапный процесс: сначала специалист по тестированию создает шаблон, называемый моделью элемента; затем разрабатывается компьютерный алгоритм для генерации тестовых элементов. [2] Таким образом, вместо того, чтобы специалист по тестированию писал каждый отдельный элемент, компьютерные алгоритмы генерируют семейства элементов из меньшего набора моделей родительских элементов. [3] [4] [5] Совсем недавно нейронные сети, включая большие языковые модели, такие как семейство GPT, успешно использовались для автоматической генерации элементов. [6] [7]

Контекст

В психологическом тестировании ответы испытуемого на тестовые задания предоставляют объективные данные измерений для различных человеческих характеристик. [8] Некоторые характеристики, измеряемые психологическими и образовательными тестами, включают академические способности, успеваемость в школе, интеллект , мотивацию и т. д., и эти тесты часто используются для принятия решений, которые имеют значительные последствия для отдельных лиц или групп лиц. Достижение стандартов качества измерений, таких как валидность теста , является одной из важнейших целей для психологов и педагогов. [9] AIG — это подход к разработке тестов, который можно использовать для поддержания и улучшения качества тестов экономически в современной среде, где компьютеризированное тестирование увеличило потребность в большом количестве тестовых заданий. [5]

Преимущества

AIG снижает стоимость создания стандартизированных тестов , [10] поскольку алгоритмы могут генерировать гораздо больше элементов за определенное время, чем специалист по тестированию. Он может быстро и легко создавать параллельные формы тестов, которые позволяют разным испытуемым подвергаться различным группам тестовых элементов с одинаковым уровнем сложности или трудности, тем самым повышая безопасность тестирования. [3] В сочетании с компьютерным адаптивным тестированием AIG может генерировать новые элементы или выбирать, какие уже сгенерированные элементы должны быть введены следующими, основываясь на способностях испытуемого во время проведения теста. Также ожидается, что AIG будет создавать элементы с широким диапазоном сложности, меньшим количеством ошибок в построении и, как ожидается, обеспечит более высокую сопоставимость элементов из-за более систематического определения модели прототипического элемента. [3] [11] [12]

Радикалы, случайные частицы и изоморфы

Разработка тестов (включая AIG) может быть обогащена, если она основана на какой-либо когнитивной теории. Когнитивные процессы, взятые из данной теории, часто сопоставляются с характеристиками элементов во время их построения. Целью этого является предопределение заданного психометрического параметра, такого как сложность элемента (далее: β ). Пусть радикалы [11] будут теми структурными элементами, которые существенно влияют на параметры элемента и предоставляют элементу определенные когнитивные требования. Один или несколько радикалов модели элемента можно манипулировать, чтобы создать родительские модели элементов с различными уровнями параметров (например, β ). Затем каждый родитель может вырастить свою собственную семью, манипулируя другими элементами, которые Ирвин [11] назвал случайными . Случайные элементы — это поверхностные характеристики, которые претерпевают случайные изменения от элемента к элементу в пределах одного семейства. Элементы, которые имеют одинаковую структуру радикалов и отличаются только случайными элементами, обычно обозначаются как изоморфы [13] или клоны . [14] [15] Может быть два вида клонирования предметов: с одной стороны, модель предмета может состоять из предмета с одним или несколькими открытыми местами, и клонирование выполняется путем заполнения каждого места элементом, выбранным из списка возможностей. С другой стороны, модель предмета может быть целым предметом, который клонируется путем введения преобразований, например, изменения угла объекта тестов пространственных способностей. [16] Изменение характеристик поверхности этих предметов не должно существенно влиять на ответы испытуемого. Вот почему считается, что случайные факторы вызывают лишь незначительные различия между параметрами предметов изоморфов. [3]

Текущие события

Ряд генераторов предметов прошли объективную проверочную проверку.

MathGen — это программа, которая генерирует задания для проверки математических достижений. В статье 2018 года для Journal of Educational Measurement авторы Эмбретсон и Кингстон провели обширный качественный обзор и эмпирические испытания для оценки качественных и психометрических свойств сгенерированных заданий, заключив, что задания были успешными и что задания, сгенерированные из той же структуры заданий, имели предсказуемые психометрические свойства. [17] [18]

Тест на мелодическую дискриминацию, разработанный с помощью вычислительной модели Rachman-Jun 2015 [19], был предложен участникам исследования 2017 года. Согласно данным, собранным PM Harrison et al., результаты демонстрируют высокую валидность и надежность. [20]

Феррейра и Бэкхофф-Эскудеро [21] создали две параллельные версии экзамена по базовым компетенциям (Excoba), общего теста образовательных навыков, используя разработанную ими программу под названием GenerEx. Затем они изучили внутреннюю структуру, а также психометрическую эквивалентность созданных тестов. Эмпирические результаты психометрического качества в целом благоприятны, а тесты и пункты согласованы, как измерено несколькими психометрическими индексами.

Гирл и его коллеги [22] [23] [24] [25] использовали программу AIG под названием «Генератор элементов» (IGOR [26] ) для создания вопросов с множественным выбором, которые проверяют медицинские знания. Вопросы, созданные IGOR, даже по сравнению с вопросами, разработанными вручную, показали хорошие психометрические свойства.

Arendasy, Sommer и Mayr [27] использовали AIG для создания вербальных элементов для проверки вербальной беглости на немецком и английском языках, предлагая их немецко- и англоговорящим участникам соответственно. Сгенерированные компьютером элементы показали приемлемые психометрические свойства. Наборы элементов, предложенные этим двум группам, были основаны на общем наборе межъязыковых опорных элементов, что облегчало кросс-лингвистические сравнения производительности.

Холлинг, Бертлинг и Цойх [28] использовали теорию вероятности для автоматического создания математических текстовых задач с ожидаемыми трудностями. Они достигли соответствия модели Раша [29] , а трудности элементов можно было объяснить с помощью линейной логистической тестовой модели (LLTM [30] ), а также с помощью случайных эффектов LLTM. Холлинг, Бланк, Кухенбекер и Кун [31] провели похожее исследование со статистическими текстовыми задачами, но без использования AIG. Арендази и его коллеги [32] [33] представили исследования по автоматически сгенерированным алгебраическим текстовым задачам и рассмотрели, как структура контроля качества AIG может повлиять на качество измерения элементов.

Автоматическая генерация фигурных предметов

Фигуральная аналогия на основе четырех правил, автоматически сгенерированная с помощью пакета IMak (для получения дополнительной информации см. Blum & Holling, 2018).

Item Maker (IMak) — это программа, написанная на языке программирования R для построения фигуральных аналоговых элементов. Психометрические свойства 23 элементов, сгенерированных IMak, оказались удовлетворительными, а сложность элементов, основанная на генерации правил, могла быть предсказана с помощью линейной логистической тестовой модели (LLTM). [3]

MazeGen — еще одна программа, написанная на R, которая автоматически генерирует лабиринты. Психометрические свойства 18 таких лабиринтов оказались оптимальными, включая соответствие модели Раша и прогнозирование сложности лабиринта LLTM. [34]

GeomGen — это программа, которая генерирует фигуральные матрицы. [35] Исследование, которое выявило источники смещения измерения, связанные со стратегиями устранения ответов для элементов фигуральной матрицы, пришло к выводу, что заметность отвлекающих факторов благоприятствует достижению стратегий устранения ответов и что эти знания могут быть включены в AIG для улучшения конструктной валидности таких элементов. [36] Та же группа использовала AIG для изучения дифференциального функционирования элементов (DIF) и гендерных различий, связанных с ментальным вращением . Они манипулировали особенностями дизайна элементов, которые демонстрировали гендерный DIF в предыдущих исследованиях, и они показали, что оценки размера эффекта гендерных различий были скомпрометированы наличием различных видов гендерного DIF, которые могли быть связаны с конкретными особенностями дизайна элементов. [37] [38]

Arendasy также изучал возможные нарушения психометрического качества, выявленные с помощью теории отклика на элемент (IRT) автоматически сгенерированных визуально-пространственных рассуждений. Для этой цели он представил две программы, а именно: уже упомянутую GeomGen [35] и Endless Loop Generator (EsGen). Он пришел к выводу, что GeomGen больше подходит для AIG, поскольку принципы IRT могут быть включены во время генерации элементов. [39] В параллельном исследовательском проекте с использованием GeomGen Arendasy и Sommer [40] обнаружили, что изменение перцептивной организации элементов может влиять на производительность респондентов в зависимости от уровня их способностей и что это влияет на несколько показателей психометрического качества. С этими результатами они поставили под сомнение предположение об одномерности элементов фигуральной матрицы в целом.

MatrixDeveloper [41] использовался для автоматической генерации двадцати пяти элементов квадратной матрицы 4x4. Эти элементы были предложены 169 людям. Согласно результатам исследования, элементы хорошо соответствуют модели Раша , а генерация на основе правил может объяснить сложность элемента. [42]

Первый известный генератор матрицы элементов был разработан Эмбретсон [43] [14], и ее автоматически сгенерированные элементы продемонстрировали хорошие психометрические свойства, как это показали Эмбретсон и Рейз. [44] Она также предложила модель для адекватной генерации элементов онлайн.

Ссылки

  1. ^ Бормут, Дж. (1969). О теории тестовых заданий достижений . Чикаго, Иллинойс: Издательство Чикагского университета.
  2. ^ Gierl, MJ, & Haladyna, TM (2012). Автоматическая генерация элементов, теория и практика . Нью-Йорк, Нью-Йорк: Routledge Chapman & Hall.
  3. ^ abcde Блум, Диего; Холлинг, Хайнц (6 августа 2018 г.). «Автоматическое создание образных аналогий с помощью пакета IMak». Frontiers in Psychology . 9 : 1286. doi : 10.3389/fpsyg.2018.01286 . PMC  6087760. PMID  30127757. Материал скопирован из этого источника, который доступен по лицензии Creative Commons Attribution 4.0 International.
  4. ^ Glas, CAW, van der Linden, WJ, & Geerlings, H. (2010). Оценка параметров в модели клонирования элементов для адаптивного тестирования. В WJ van der Linden, & CAW Glas (ред.). Элементы адаптивного тестирования (стр. 289–314). DOI: 10.1007/978-0-387-85461-8_15.
  5. ^ ab Gierl, MJ, & Lai, H. (2012). Роль моделей элементов в автоматической генерации элементов. Международный журнал тестирования, 12 (3), 273–298. DOI: 10.1080/15305058.2011.635830.
  6. ^ фон Давьер, М. Автоматизированная генерация элементов с помощью рекуррентных нейронных сетей. Психометрика 83, 847–857 (2018). https://doi.org/10.1007/s11336-018-9608-y
  7. ^ Янева, В. и фон Давьер, М. (ред.). (2023). Развитие обработки естественного языка в образовательной оценке (1-е изд.). Routledge. https://doi.org/10.4324/9781003278658
  8. ^ Ван дер Линден, У. Дж. и Хэмблтон, Р. К. (1997). Теория ответа на вопрос: краткая история, общие модели и расширения. В RK Hambleton, & WJ van der Linden (ред.). Справочник по современной теории ответа на вопрос (стр. 1–31). Нью-Йорк: Springer.
  9. ^ Эмбретсон, С.Е. (1999). Проблемы измерения когнитивных способностей. В SE Эмбретсон, и С.Л. Хершбергер (ред.). Новые правила измерения (стр. 1–15). Mahwah: Lawrence Erlbaum Associates.
  10. ^ Руднер, Л. (2010). Внедрение компьютеризированного адаптивного теста для поступления на программу обучения по менеджменту. В WJ van der Linden и CAW Glas (ред.). Элементы адаптивного тестирования (стр. 151–165). DOI: 10.1007/978-0-387-85461-8_15.
  11. ^ abc Irvine, S. (2002). Основы генерации элементов для массового тестирования. В SH Irvine, & PC Kyllonen (ред.). Генерация элементов для разработки тестов (стр. 3–34). Mahwah: Lawrence Erlbaum Associates.
  12. ^ Lai, H., Alves, C., & Gierl, MJ (2009). Использование автоматической генерации элементов для удовлетворения требований к элементам CAT. В DJ Weiss (ред.), Труды конференции GMAC 2009 года по компьютерному адаптивному тестированию . Веб-сайт: www.psych.umn.edu/psylabs/CATCentral.
  13. ^ Бежар, II (2002). Генеративное тестирование: от концепции до реализации в книге «Генерация элементов для разработки тестов» , редакторы SH Irvine и PC Kyllonen (Mahwah, NJ: Lawrence Erlbaum Associates), 199–217.
  14. ^ ab Эмбретсон, С. Э. (1999). Генерация элементов во время тестирования: психометрические проблемы и модели. Психометрика, 64 (4), 407–433.
  15. ^ Arendasy, ME, и Sommer, M. (2012). Использование автоматической генерации заданий для удовлетворения растущих требований к заданиям высокоуровневой образовательной и профессиональной оценки. Обучение и индивидуальные различия, 22 , 112–117. doi: 10.1016/j.lindif.2011.11.005.
  16. ^ Glas, CAW и van der Linden, WJ (2003). Компьютеризированное адаптивное тестирование с клонированием элементов. Прикладные психологические измерения, 27 , 247–261. doi: 10.1177/0146621603027004001.
  17. ^ Эмбретсон, С. Э. и Кингстон, Н. М. (2018). Автоматическая генерация элементов: более эффективный процесс разработки элементов достижений по математике? Журнал образовательных измерений, 55 (1), 112–131. DOI: 10.1111/jedm.12166
  18. ^ Уилсон, Дж., Моррисон, К. и Эмбретсон, С. Э. (2014). Автоматический генератор заданий для математических достижений: MathGen3.0 . Технический отчет IES1005A-2014 для гранта Института педагогических наук R305A100234. Атланта, Джорджия: Лаборатория когнитивных измерений, Джорджия, Технологический институт.
  19. ^ Коллинз, Т., Лэйни, Р., Уиллис, А. и Гартвейт, П. Х. (2016). Разработка и оценка вычислительных моделей музыкального стиля. Искусственный интеллект для инженерного проектирования, анализа и производства, 30 , 16–43. DOI: 10.1017/S0890060414000687.
  20. ^ Харрисон, П. М., Коллинз, Т. и Мюллензифен, Д. (2017). Применение современных психометрических методов к тестированию на мелодическую дискриминацию: теория ответов на вопросы, компьютеризированное адаптивное тестирование и автоматическая генерация вопросов. Научные отчеты, 7 (3618), 1–18.
  21. ^ Феррейра, М.Ф., и Бакхофф-Эскудеро, Э. (2016). Проверьте автоматический генератор результатов экзамена по базовым компетенциям (Excoba). Релье, 22 (1), арт. 2, 1–16. DOI: 10.7203/relieve.22.1.8048.
  22. ^ Gierl, MJ, Lai, H., Pugh, D., Touchie, C., Boulais, AP, & De Champlain, A. (2016). Оценка психометрических характеристик сгенерированных тестовых заданий с множественным выбором. Прикладные измерения в образовании, 29 (3), 196–210. DOI: 10.1080/08957347.2016.1171768.
  23. ^ Lai, H., Gierl, MJ, Byrne, BE, Spielman, AI, & Waldschmidt, DM (2016). Три приложения моделирования для содействия автоматической генерации предметов для экзаменов в стоматологии. Журнал стоматологического образования, 80 (3), 339–347.
  24. ^ Gierl, MJ, & Lai, H. (2013). Оценка качества медицинских вопросов с множественным выбором, созданных с помощью автоматизированных процессов. Медицинское образование, 47 , 726–733. DOI: 10.1111/medu.12202.
  25. ^ Gierl, MJ, Lai, H., & Turner, SR (2012). Использование автоматической генерации элементов для создания тестовых элементов с множественным выбором. Медицинское образование, 46 (8), 757–765. DOI: 10.1111/j.1365-2923.2012.04289.x.
  26. ^ Gierl, MJ, Zhou, J., & Alves, C. (2008). Разработка таксономии типов режимов элементов для содействия инженерии оценки. J technol learn Assessment, 7 (2), 1–51.
  27. ^ Arendasy, ME, Sommer, M., & Mayr, F. (2011). Использование автоматической генерации элементов для одновременного создания немецкой и английской версий теста на беглость речи. Журнал кросс-культурной психологии, 43 (3), 464–479. DOI: 10.1177/0022022110397360.
  28. ^ Холлинг, Х., Бертлинг, Дж. П. и Цойх, Н. (2009). Автоматическая генерация элементов вероятностных текстовых задач. Исследования по оценке образования, 35 (2–3), 71–76.
  29. ^ Раш, Г. (1960). Вероятностные модели для некоторых тестов интеллекта и достижений . Чикаго: Издательство Чикагского университета.
  30. ^ Фишер, ГХ (1973). Линейная логистическая тестовая модель как инструмент педагогических исследований. Acta Psychological, 37 , 359–374. DOI: 10.1016/0001-6918(73)90003-6.
  31. ^ Холлинг, Х., Бланк, Х., Кухенбекер, К. и Кун, Дж. Т. (2008). Проектирование элементов статистических текстовых задач на основе правил: обзор и первая реализация. Psychology science quarterly, 50 (3), 363–378.
  32. ^ Arendasy, ME, Sommer, M., Gittler, G., & Hergovich, A. (2006). Автоматическая генерация количественных рассуждений. Пилотное исследование. Журнал индивидуальных различий, 27 (1), 2–14. DOI: 10.1027/1614-0001.27.1.2.
  33. ^ Arendasy, ME, & Sommer, M. (2007). Использование психометрической технологии в образовательной оценке: случай изоморфного подхода на основе схемы к автоматической генерации количественных рассуждений. Обучение и индивидуальные различия, 17 (4), 366–383. DOI: 10.1016/j.lindif.2007.03.005.
  34. ^ Loe, BS, & Rust, J. (2017). Повторный тест перцептивного лабиринта: оценка сложности автоматически сгенерированных лабиринтов. Оценка , 1–16. DOI: 10.1177/1073191117746501.
  35. ^ аб Арендаси, М. (2002). Geom-Gen-Ein Itemgenerator for Matrizentestaufgaben . Вена: Айгенверлаг.
  36. ^ Arendasy, ME, & Sommer, M. (2013). Сокращение стратегий исключения ответов повышает конструктную валидность фигуральных матриц. Intelligence, 41 , 234–243. DOI: 10.1016/j.intell.2013.03.006.
  37. ^ Arendasy, ME, & Sommer, M. (2010). Оценка вклада различных характеристик элементов в величину эффекта гендерного различия в трехмерном мысленном вращении с использованием автоматической генерации элементов. Intelligence, 38 (6), 574–581. DOI:10.1016/j.intell.2010.06.004.
  38. ^ Arendasy, ME, Sommer, M., & Gittler, G. (2010). Объединение автоматической генерации элементов и экспериментальных проектов для исследования вклада когнитивных компонентов в гендерные различия в ментальном вращении. Intelligence, 38 (5), 506–512. DOI:10.1016/j.intell.2010.06.006.
  39. ^ Arendasy, M. (2005). Автоматическая генерация элементов, калиброванных по Рашу: тест фигуральных матриц GEOM и тест бесконечных циклов EC. Международный журнал тестирования, 5 (3), 197–224.
  40. ^ Arendasy, ME, & Sommer, M. (2005). Влияние различных типов перцептивных манипуляций на размерность автоматически сгенерированных фигуральных матриц. Intelligence, 33 (3), 307–324. DOI: 10.1016/j.intell.2005.02.002.
  41. ^ Хофер, С. (2004). Разработчик Matrix. Мюнстер, Германия: Психологический институт IV. Вестфальский университет Вильгельма.
  42. ^ Фройнд, П. А., Хофер, С. и Холлинг, Х. (2008). Объяснение и контроль психометрических свойств элементов компьютерной матрицы фигур. Прикладные психологические измерения, 32 (3), 195–210. DOI: 10.1177/0146621607306972.
  43. ^ Эмбретсон, С. Э. (1998). Системный подход когнитивного проектирования к созданию валидных тестов: применение к абстрактному рассуждению. Психологические методы, 3 (3), 380–396.
  44. ^ Эмбретсон, С. Э. и Рейз, С. П. (2000). Теория ответа на вопрос для психологов . Mahwah: Lawrence Erlbaum Associates.
Взято с "https://en.wikipedia.org/w/index.php?title=Автоматическое_генерирование_элементов&oldid=1227543504"