Надежность (статистика)

Общая согласованность показателя в статистике и психометрии

В статистике и психометрии надежность — это общая согласованность меры. ^[1] Говорят, что мера имеет высокую надежность, если она дает схожие результаты при постоянных условиях :

Это характеристика набора тестовых баллов, которая относится к количеству случайных ошибок из процесса измерения, которые могут быть встроены в баллы. Баллы, которые являются высоконадежными, являются точными, воспроизводимыми и последовательными от одного случая тестирования к другому. То есть, если бы процесс тестирования был повторен с группой испытуемых, были бы получены по сути те же самые результаты. Различные виды коэффициентов надежности со значениями в диапазоне от 0,00 (большая ошибка) до 1,00 (нет ошибок) обычно используются для указания количества ошибок в баллах. ^[2]

Например, измерения роста и веса людей часто бывают чрезвычайно надежными. ^[3]^[4]

Типы

Существует несколько общих классов оценок надежности:

Межэкспертная надежность оценивает степень согласия между двумя или более экспертами в их оценках. Например, у человека болит живот, и разные врачи ставят один и тот же диагноз.^[5]^{: 71}
Надежность повторного тестирования оценивает степень согласованности результатов тестирования от одного проведения теста к другому. Измерения собираются от одного оценщика, который использует те же методы или инструменты и те же условия тестирования.^[4] Это включает в себя надежность внутри оценщика .
Межметодная надежность оценивает степень согласованности результатов тестов при наличии различий в используемых методах или инструментах. Это позволяет исключить межэкспертную надежность. При работе с формами ее можно назвать надежностью параллельных форм . ^[6]
Надежность внутренней согласованности оценивает согласованность результатов по всем пунктам в рамках теста.^[6]

Отличие от действительности

Надежность не подразумевает валидность . То есть, надежная мера, которая последовательно измеряет что-то, не обязательно измеряет то, что должно измеряться. Например, хотя существует множество надежных тестов определенных способностей, не все из них будут валидны для прогнозирования, скажем, производительности труда.

Хотя надежность не подразумевает валидность , надежность накладывает ограничение на общую валидность теста. Тест, который не является абсолютно надежным, не может быть абсолютно валидным, ни как средство измерения характеристик человека, ни как средство прогнозирования баллов по критерию. В то время как надежный тест может предоставить полезную валидную информацию, тест, который не является надежным, не может быть валидным. ^[7]

Например, если набор весов последовательно измеряет вес объекта на 500 граммов больше истинного веса, то весы будут очень надежными, но они не будут действительными (поскольку возвращаемый вес не является истинным весом). Чтобы весы были действительными, они должны возвращать истинный вес объекта. Этот пример показывает, что совершенно надежная мера не обязательно является действительной, но что действительная мера обязательно должна быть надежной.

Общая модель

На практике тестовые измерения никогда не бывают идеально последовательными. Теории надежности тестов были разработаны для оценки влияния непоследовательности на точность измерения. Основной отправной точкой для почти всех теорий надежности тестов является идея о том, что тестовые баллы отражают влияние двух видов факторов: ^[7]

Факторы постоянства: стабильные характеристики личности или атрибута, которые пытаемся измерить.
Факторы непоследовательности: особенности личности или ситуации, которые могут повлиять на результаты теста, но не имеют ничего общего с измеряемым атрибутом.

Эти факторы включают в себя: ^[7]

Временные, но общие характеристики личности: здоровье, усталость, мотивация, эмоциональное напряжение.
Временные и специфические характеристики личности: понимание конкретного тестового задания, специфические приемы или методы работы с конкретными тестовыми материалами, колебания памяти, внимания или точности.
Аспекты ситуации тестирования: отсутствие отвлекающих факторов, ясность инструкций, взаимодействие личностей и т. д.
Факторы случайности: удача в выборе ответов путем простого угадывания, кратковременные отвлечения внимания

Цель оценки надежности — определить, какая часть изменчивости результатов тестов обусловлена ошибками измерения , а какая — изменчивостью истинных результатов ( истинного значения ). ^[7]

Истинная оценка — это воспроизводимая характеристика измеряемой концепции. Это часть наблюдаемой оценки, которая будет повторяться в различных случаях измерения при отсутствии ошибки.

Ошибки измерения состоят из случайной и систематической ошибки . Они представляют собой расхождения между результатами, полученными в ходе тестов, и соответствующими истинными оценками.

Эта концептуальная разбивка обычно представлена простым уравнением:

$X=T+E$ где X — наблюдаемый результат теста, T — истинный результат, а E — ошибка измерения.

Классическая теория испытаний

Цель теории надежности — оценить погрешности измерений и предложить способы улучшения испытаний, чтобы свести погрешности к минимуму.

Центральным предположением теории надежности является то, что ошибки измерения по сути случайны. Это не означает, что ошибки возникают из-за случайных процессов. Для любого человека ошибка измерения не является полностью случайным событием. Однако среди большого числа людей причины ошибки измерения считаются настолько разнообразными, что ошибки измерения действуют как случайные величины. ^[7]

Если ошибки обладают основными характеристиками случайных величин, то разумно предположить, что ошибки с равной вероятностью могут быть как положительными, так и отрицательными и что они не коррелируют с истинными результатами или с ошибками в других тестах.

Предполагается, что: ^[8]

Средняя погрешность измерения = 0
Истинные оценки и ошибки не коррелируют
Ошибки по разным показателям не коррелируют

Теория надежности показывает, что дисперсия полученных оценок представляет собой просто сумму дисперсии истинных оценок плюс дисперсию ошибок измерения . ^[7]

\сигма _{X}^{2}=\сигма _{T}^{2}+\сигма _{E}^{2}

Это уравнение предполагает, что результаты тестов варьируются в зависимости от двух факторов:

Изменчивость истинных оценок
Изменчивость из-за ошибок измерения.

Коэффициент надежности представляет собой индекс относительного влияния истинных и ошибочных оценок на полученные тестовые баллы. В общем виде коэффициент надежности определяется как отношение истинной дисперсии баллов к общей дисперсии тестовых баллов. Или, что эквивалентно, единица минус отношение дисперсии ошибочной оценки к дисперсии наблюдаемой оценки : $\rho _{xx'}$

\rho _{xx'}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac {\sigma _{E}^{2}}{\sigma _{X}^{2}}}

К сожалению, не существует возможности напрямую наблюдать или вычислять истинный результат, поэтому для оценки надежности теста используются различные методы.

Некоторые примеры методов оценки надежности включают надежность повторного тестирования , надежность внутренней согласованности и надежность параллельного тестирования . Каждый метод подходит к проблеме определения источника ошибки в тесте несколько по-разному.

Теория ответов на вопросы

Классическим теоретикам тестирования было хорошо известно, что точность измерения неравномерна по шкале измерения. Тесты, как правило, лучше различают испытуемых со средним уровнем черт и хуже среди испытуемых с высокими и низкими баллами. Теория ответов на вопросы расширяет концепцию надежности с одного индекса до функции, называемой информационной функцией . Информационная функция IRT является обратной величиной условной наблюдаемой стандартной ошибки балла при любом заданном тестовом балле.

Оценка

Цель оценки надежности — определить, какая часть изменчивости результатов тестов обусловлена ошибками измерения, а какая — изменчивостью истинных результатов.

Разработаны четыре практические стратегии, которые предоставляют работающие методы оценки надежности теста: ^[7]

Надежность теста-остатка

Метод надежности повторного тестирования напрямую оценивает степень согласованности результатов тестирования от одного тестирования к другому. Он включает:

Проведение теста среди группы лиц
Повторное проведение того же теста в той же группе в более позднее время
Сопоставление первого набора оценок со вторым

Корреляция между результатами первого теста и результатами повторного теста используется для оценки надежности теста с использованием коэффициента корреляции Пирсона : см. также корреляцию между элементами и общей суммой .

Метод параллельных форм

Ключом к этому методу является разработка альтернативных форм тестов, которые эквивалентны по содержанию, процессам реагирования и статистическим характеристикам. Например, существуют альтернативные формы для нескольких тестов общего интеллекта, и эти тесты, как правило, считаются эквивалентными. ^[7]

С помощью параллельной тестовой модели можно разработать две формы теста, которые эквивалентны в том смысле, что истинный балл человека по форме A будет идентичен его истинному баллу по форме B. Если обе формы теста были предложены нескольким людям, различия между баллами по форме A и форме B могут быть вызваны только ошибками в измерении. ^[7] Это включает в себя:

Проведение одной из форм теста среди группы лиц
В более позднее время, проведение альтернативной формы того же теста для той же группы людей
Сопоставление оценок по форме A с оценками по форме B

Корреляция между результатами двух альтернативных форм используется для оценки надежности теста.

Этот метод обеспечивает частичное решение многих проблем, присущих методу надежности повторного тестирования . Например, поскольку две формы теста различны, эффект переноса является меньшей проблемой. Эффекты реактивности также частично контролируются; хотя проведение первого теста может изменить ответы на второй тест. Однако разумно предположить, что эффект не будет таким сильным при альтернативных формах теста, как при двух введениях одного и того же теста. ^[7]

Однако этот метод имеет свои недостатки:

Может оказаться очень сложным создать несколько альтернативных форм теста.
Также может быть трудно, если не невозможно, гарантировать, что две альтернативные формы теста являются параллельными измерениями.

Метод разделения пополам

Этот метод рассматривает две половины меры как альтернативные формы. Он обеспечивает простое решение проблемы, с которой сталкивается метод параллельных форм: трудности в разработке альтернативных форм. ^[7] Он включает:

Проведение теста среди группы лиц
Разделение теста пополам
Сопоставление результатов одной половины теста с результатами другой половины теста

Корреляция между этими двумя разделенными половинами используется для оценки надежности теста. Затем эта оценка надежности половин увеличивается до полной длины теста с использованием формулы прогнозирования Спирмена–Брауна .

Существует несколько способов разбиения теста для оценки надежности. Например, тест на словарный запас из 40 пунктов можно разделить на два подтеста: первый из них будет состоять из пунктов с 1 по 20, а второй — из пунктов с 21 по 40. Однако ответы из первой половины могут систематически отличаться от ответов из второй половины из-за увеличения сложности пунктов и усталости. ^[7]

При разделении теста две половины должны быть максимально похожими, как по содержанию, так и по вероятному состоянию респондента. Самый простой метод — принять разделение на нечетные и четные, в котором нечетные элементы образуют одну половину теста, а четные — другую. Такое расположение гарантирует, что каждая половина будет содержать равное количество элементов из начала, середины и конца исходного теста. ^[7]

Внутренняя согласованность

Внутренняя согласованность оценивает согласованность результатов по пунктам в рамках теста. Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха , которая обычно интерпретируется как среднее значение всех возможных коэффициентов разделения пополам. ^[9] Альфа Кронбаха является обобщением более ранней формы оценки внутренней согласованности, формулы Кьюдера–Ричардсона 20. [ ^9] Хотя она наиболее часто используется, существуют некоторые заблуждения относительно альфы Кронбаха. ^[10]^[11]

Эти меры надежности различаются по своей чувствительности к разным источникам ошибок и поэтому не обязательно должны быть равными. Кроме того, надежность является свойством оценок меры, а не самой меры, и поэтому говорят, что она зависит от выборки . Оценки надежности одной выборки могут отличаться от оценок второй выборки (за пределами того, что можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой популяции, поскольку истинная изменчивость в этой второй популяции отличается. (Это справедливо для мер всех типов — линейки могут хорошо измерять дома, но иметь низкую надежность при использовании для измерения длины насекомых.)

Надежность может быть улучшена за счет ясности выражения (для письменных оценок), удлинения меры ^[9] и других неформальных средств. Однако формальный психометрический анализ, называемый анализом элементов, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления трудностей элементов и индексов дискриминации элементов , причем последний индекс включает вычисление корреляций между элементами и суммой баллов элементов всего теста. Если элементы, которые слишком сложны, слишком легки и/или имеют близкую к нулю или отрицательную дискриминацию, заменить лучшими элементами, надежность измерения увеличится.

$R(t)=1-F(t).$
$R(t)=\exp(-\lambda t),$ где - процент отказов. ${\textstyle \лямбда}$

Смотрите также

Ссылки

^ Трохим, Уильям МК «Надежность».
^ "Глоссарий важных оценок и измерений". Национальный совет по измерениям в образовании . Архивировано из оригинала 4 июля 2015 г.
^ Карлсон, Нил Р. и др. (2009). Психология: наука о поведении (4-е канадское издание). Торонто: Pearson. ISBN 978-0-205-64524-4.
^ ab Совет по стандартам маркетинговой ответственности (MASB) одобряет это определение как часть своего текущего проекта «Общий язык: маркетинговые мероприятия и показатели». Архивировано 12 февраля 2013 г. на Wayback Machine .
^ Дюран, В. Марк. (2015). Основы аномальной психологии . [Место публикации не указано]: Cengage Learning. ISBN 978-1305633681. OCLC 884617637.
^ ab "Типы надежности". База знаний по методам исследования . Получено 20 октября 2006 г.
^ abcdefghijklm Дэвидсхофер, Кевин Р. Мерфи, Чарльз О. (2005). Психологическое тестирование: принципы и применение (6-е изд.). Upper Saddle River, NJ: Pearson/Prentice Hall. ISBN 0-13-189172-3.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Гулликсен, Гарольд (1987). Теория ментальных тестов . Хиллсдейл, Нью-Джерси: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.
^ abc Cortina, JM (1993). "Что такое коэффициент альфа? Исследование теории и приложений" (PDF) . Журнал прикладной психологии . 78 (1): 98– 104. doi :10.1037/0021-9010.78.1.98. Архивировано (PDF) из оригинала 5 августа 2023 г.
^ Риттер, Н. (2010). Понимание широко неверно понимаемой статистики: альфа Кронбаха. Конференция Юго-западной ассоциации образовательных исследований (SERA) 2010. Том ED526237. Новый Орлеан, Луизиана.
^ Eisinga, R.; Te Grotenhuis, M.; Pelzer, B. (2012). «Надежность двухпунктовой шкалы: Пирсон, Кронбах или Спирмен-Браун?» (PDF) . International Journal of Public Health . 58 (4): 637– 642. doi :10.1007/s00038-012-0416-3. hdl : 2066/116735 . PMID 23089674. S2CID 215730043.

Внешние ссылки

«Объяснение внутренней и внешней надежности и валидности».
"Модели неопределенности, количественная оценка неопределенности и обработка неопределенности в инжиниринге". Архивировано из оригинала 30 марта 2014 г.
«Связь между корреляционными и внутренними концепциями согласованности надежности тестов». Архивировано из оригинала 27 сентября 2011 г.
«Проблема отрицательных надёжностей». Архивировано из оригинала 27 сентября 2011 г.

[1] Трохим, Уильям МК «Надежность».

[2] "Глоссарий важных оценок и измерений". Национальный совет по измерениям в образовании . Архивировано из оригинала 4 июля 2015 г.

[3] Карлсон, Нил Р. и др. (2009). Психология: наука о поведении (4-е канадское издание). Торонто: Pearson. ISBN 978-0-205-64524-4.

[themasb.org-4] Совет по стандартам маркетинговой ответственности (MASB) одобряет это определение как часть своего текущего проекта «Общий язык: маркетинговые мероприятия и показатели». Архивировано 12 февраля 2013 г. на Wayback Machine .

[5] Дюран, В. Марк. (2015). Основы аномальной психологии . [Место публикации не указано]: Cengage Learning. ISBN 978-1305633681. OCLC 884617637.

[socialresearchmethods-6] "Типы надежности". База знаний по методам исследования . Получено 20 октября 2006 г.

[David-7] Дэвидсхофер, Кевин Р. Мерфи, Чарльз О. (2005). Психологическое тестирование: принципы и применение (6-е изд.). Upper Saddle River, NJ: Pearson/Prentice Hall. ISBN 0-13-189172-3.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[8] Гулликсен, Гарольд (1987). Теория ментальных тестов . Хиллсдейл, Нью-Джерси: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.

[Cortina-9] Cortina, JM (1993). "Что такое коэффициент альфа? Исследование теории и приложений" (PDF) . Журнал прикладной психологии . 78 (1): 98– 104. doi :10.1037/0021-9010.78.1.98. Архивировано (PDF) из оригинала 5 августа 2023 г.

[10] Риттер, Н. (2010). Понимание широко неверно понимаемой статистики: альфа Кронбаха. Конференция Юго-западной ассоциации образовательных исследований (SERA) 2010. Том ED526237. Новый Орлеан, Луизиана.

[11] Eisinga, R.; Te Grotenhuis, M.; Pelzer, B. (2012). «Надежность двухпунктовой шкалы: Пирсон, Кронбах или Спирмен-Браун?» (PDF) . International Journal of Public Health . 58 (4): 637– 642. doi :10.1007/s00038-012-0416-3. hdl : 2066/116735 . PMID 23089674. S2CID 215730043.