Шкала оценок

Тип шкалы измерения информации

Шкала оценок — это набор категорий, предназначенных для получения информации о количественном или качественном атрибуте. В социальных науках , в частности , в психологии , распространенными примерами являются шкала ответов Лайкерта и шкалы оценок от 0 до 10, где человек выбирает число, отражающее воспринимаемое качество продукта .

Фон

Шкала оценок — это метод, требующий от оценщика присвоить оцениваемому объекту значение, иногда числовое, в качестве меры некоторого оцениваемого атрибута.

Типы шкал оценки

Все оценочные шкалы можно отнести к одному из следующих типов:

  1. Числовая шкала оценок (NRS)
  2. Шкала вербальной оценки (VRS)
  3. Визуальная аналоговая шкала (ВАШ)
  4. Лайкерт
  5. Графическая шкала оценок
  6. Описательная графическая шкала оценок

Некоторые данные измеряются на порядковом уровне . Числа указывают на относительное положение элементов, но не на величину разницы. Шкалы отношения и мнения обычно порядковые; одним из примеров является шкала ответа Лайкерта :

Заявление
например, «Я не смог бы жить без своего компьютера».
Варианты ответа
  1. Категорически не согласен
  2. Не согласен
  3. Нейтральный
  4. Соглашаться
  5. Полностью согласен

Некоторые данные измеряются на уровне интервала . Числа указывают величину разницы между элементами, но абсолютной нулевой точки нет. Хорошим примером является шкала температур Фаренгейта/Цельсия, где разница между числами имеет значение, а расположение нуля — нет.

Некоторые данные измеряются на уровне отношения . Числа указывают величину разницы, и есть фиксированная нулевая точка. Отношения могут быть рассчитаны. Примерами являются возраст, доход, цена, издержки, выручка от продаж, объем продаж и доля рынка.

Для измерения отношения или восприятия требуется более одного вопроса оценочной шкалы из-за необходимости статистических сравнений между категориями в политомической модели Раша для упорядоченных категорий. [1] В классической теории тестирования требуется более одного вопроса для получения индекса внутренней надежности, такого как альфа Кронбаха , [2], который является основным критерием оценки эффективности оценочной шкалы.

Рейтинговые шкалы, используемые в Интернете

Рейтинговые шкалы широко используются в Интернете в попытке предоставить указания на потребительские мнения о продуктах. Примерами сайтов, которые используют рейтинговые шкалы, являются IMDb , Epinions.com , Yahoo! Movies , Amazon.com , BoardGameGeek и TV.com, которые используют рейтинговую шкалу от 0 до 100 для получения «персонализированных рекомендаций по фильмам».

Почти во всех случаях онлайн-оценки допускают только одну оценку на пользователя за продукт, хотя есть исключения, такие как Ratings.net , который позволяет пользователям оценивать продукты по нескольким качествам. Большинство онлайн-оценочных служб также предоставляют мало или вообще не предоставляют качественных описаний категорий рейтинга, хотя опять же есть исключения, такие как Yahoo! Movies , который маркирует каждую из категорий от F до A+, и BoardGameGeek, который предоставляет явные описания каждой категории от 1 до 10. Часто описываются только верхняя и нижняя категории, например, на онлайн-оценке IMDb .

Действительность

Валидность относится к тому, насколько хорошо инструмент измеряет то, что он намеревается измерить. Поскольку каждый пользователь оценивает продукт только один раз, например, в категории от 1 до 10, нет возможности оценить внутреннюю надежность с помощью индекса, такого как альфа Кронбаха . Поэтому невозможно оценить валидность оценок как мер восприятия зрителя. Установление валидности потребовало бы установления как надежности, так и точности (т. е. того, что оценки представляют то, что они должны представлять). Степень валидности инструмента определяется путем применения логических/или статистических процедур. «Процедура измерения валидна в той степени, в которой она измеряет то, что она предлагает измерить».

Еще одна фундаментальная проблема заключается в том, что онлайн-рейтинги обычно используют удобную выборку, во многом похожую на телевизионные опросы, то есть они представляют только мнения тех, кто склонен предоставлять оценки.

Валидность касается различных аспектов процесса измерения. Каждый из этих типов использует логику, статистическую проверку или и то, и другое для определения степени валидности и имеет особую ценность при определенных условиях. Типы валидности включают валидность содержания, прогностическую валидность и конструктную валидность.

Отбор проб

Ошибки выборки могут привести к результатам, имеющим определенную предвзятость или относящимся только к определенной подгруппе. Рассмотрим такой пример: предположим, что фильм привлекает только специализированную аудиторию — 90% из них являются приверженцами этого жанра, и только 10% — люди с общим интересом к фильмам. Предположим, что фильм очень популярен среди зрителей, которые его смотрят, и что только те, кто испытывает самые сильные чувства к фильму, склонны оценивать фильм онлайн; следовательно, все оценщики выбираются из числа приверженцев. Такое сочетание может привести к очень высоким оценкам фильма, которые не обобщаются за пределами людей, которые действительно смотрят фильм (или, возможно, даже за пределами тех, кто действительно оценивает его).

Качественное описание

Качественное описание категорий повышает полезность шкалы оценок. Например, если только баллы от 1 до 10 даны без описания, некоторые люди могут выбирать 10 редко, тогда как другие могут выбирать категорию часто. Если же вместо этого «10» описывается как «почти безупречно», категория, скорее всего, будет означать одно и то же для разных людей. Это относится ко всем категориям, а не только к крайним точкам.

Вышеуказанные проблемы усугубляются, когда агрегированная статистика, такая как средние значения, используется для списков и рейтингов продуктов. Оценки пользователей в лучшем случае являются порядковыми категоризациями. Хотя не редкость вычислять средние значения или средние значения для таких данных, это не может быть оправдано, поскольку при вычислении средних значений требуются равные интервалы для представления одинаковой разницы между уровнями воспринимаемого качества. Основные проблемы с агрегированными данными, основанными на видах шкал оценки, обычно используемых в Интернете, следующие:

  • Для собранных данных не следует рассчитывать средние значения.
  • Обычно невозможно оценить надежность и обоснованность оценок пользователей.
  • Продукты не сравниваются по явным, не говоря уже об общих [ необходимо разъяснение ] , критериям.
  • Это делают только те пользователи, которые склонны ставить оценку продукту.
  • Данные обычно не публикуются в форме, позволяющей оценить рейтинги продукта.

Более развитые методологии включают методы моделирования выбора или максимальной разницы , причем последний связан с моделью Раша из-за связи между законом сравнительного суждения Терстоуна [ необходимо разъяснение ] и моделью Раша.

Сокращение шкалы оценок

В результате международного совместного исследования [3] был представлен алгоритм, основанный на данных, для снижения рейтинговой шкалы. Он основан на площади под рабочей характеристикой приемника .

Происхождение

Историческое происхождение шкал оценок было переоценено после значительного археологического открытия в Тбилиси, Грузия , в 2010 году. Археологи обнаружили табличку, относящуюся к раннему средневековью, с древнегрузинским письмом. [4] На этой табличке был представлен ряд линейных отметок, интерпретируемых как ранняя форма шкалы оценок. Надписи дали представление о средневековых методах количественной оценки и количественного определения, что предполагает эмбриональную версию современных шкал оценок. Это открытие в настоящее время хранится в Национальном музее Грузии . [5]

Смотрите также

Ссылки

  1. ^ Андрич, Дэвид (декабрь 1978 г.). «Формулировка рейтинга для упорядоченных категорий ответов». Психометрика . 43 (4): 561–573. doi :10.1007/BF02293814. S2CID  120687848.
  2. ^ Кронбах, Ли Дж. (сентябрь 1951 г.). «Коэффициент альфа и внутренняя структура тестов». Психометрика . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . doi :10.1007/BF02310555. S2CID  13820448. 
  3. ^ Koczkodaj, Waldemar W; Kakiashvili, T.; Szymańska, A.; Montero-Marin, J.; Araya, R.; Garcia-Campayo, J.; Rutkowski, K.; Strzałka, D. (2017). «Как сократить количество пунктов оценочной шкалы без потери предсказуемости?». Scientometrics . 111 (2): 581–593(2017). doi : 10.1007/s11192-017-2283-4 . PMC 5400800. PMID  28490822 .  
  4. Викискладе есть медиафайлы по теме ები შარში ეხვევიან - სად არის ოროზმანელი ადამიანის კბილი?". რადიო თავისუფლება (на грузинском языке). 21 сентября 2022 г. Проверено в 2024 г. 01-17 .
  5. Ссылки ოულად გათხრები ტარდებოდეს" - არქეოლოგები გათხრის უფლებას ვერ იღებენ". რადიო თავისუფებ ა (на грузинском языке) 21 июня 2022 г. Проверено 17 января 2024 г.
  • Семантический дифференциал UEQ для измерения пользовательского опыта
Получено с "https://en.wikipedia.org/w/index.php?title=Rating_scale&oldid=1223741537"