Обсуждение:Матрица путаницы

Слияние

Предлагаю объединить эту статью по этому адресу с Таблицей путаницы . Проблема та же самая, и статья должна быть только одна, чтобы избежать путаницы //конец неудачной шутки//. -- Ben T / C 15:46, 21 мая 2007 (UTC) [ ответить ]


Я не поддерживаю это изменение названия. «Матрица путаницы» всегда использовалась в распознавании речи и в некоторых других задачах распознавания образов, хотя я не могу проследить происхождение этого использования. Например, некоторые довольно стандартные наборы инструментов распознавания последовательностей, такие как HTK, имеют инструменты, специально разработанные для получения этой «матрицы путаницы».

Я согласен с тем, что в большинстве случаев мы видим таблицу (особенно если читаем ее с бумаги), и полагаю, что вся эта «таблица неточностей» возникла из статистики и людей, которые развивали свою область еще до появления компьютеров.

В коммуникациях мы называем связанную диаграмму ROC ( Receiver_operating_characteristic ), каждая из рабочих точек которой является таблицей путаницы. Я предлагаю ввести туда "таблицу путаницы" и улучшить "матрицу путаницы". --FJValverde 09:24, 14 июня 2007 (UTC) [ ответить ]


Идея в том, чтобы иметь как можно больше информации для максимально широкой аудитории. Поскольку эти 2 — одно и то же с разными терминами — имеет смысл объединить их, перенаправляя поисковые запросы на одну страницу. — пользователь AOberai, 14 августа 2007 г.

География

Чтобы еще больше запутать ситуацию, матрицы путаницы используются не только в ИИ (как предполагается в этой статье). Матрица путаницы также используется в наблюдении за Землей при проверке тематических классификаций.


Да, я считаю, что ИИ слишком узок в этом обсуждении. Я предлагаю "Распознавание образов" - это реальный контекст, в котором матрицы путаницы имеют смысл. FJValverde 09:01, 14 июня 2007 (UTC) [ ответить ]

Я думаю, что они используются в статистике в целом, будь то для распознавания образов или наблюдения за Землей. -- Ben T / C 07:41, 20 июня 2007 (UTC) [ ответить ]

Э-э... В моем очень ограниченном историческом взгляде на статистику и PR, последний фактически возник из первого, но с тех пор обрел некоторую независимость: не все методы в PR являются статистическими (или даже вероятностными). Однако я думаю, что матрица путаницы является собственно концепцией PR в том смысле, что классификатор n-to-m является очень базовой задачей PR. В этом смысле наблюдение за Землей и "тематическая классификация" (имеется в виду классификация типа почвы и т. п. на основе изображений, полученных со спутников, верно?) являются строго типом задачи PR. --FJValverde 08:47, 22 июня 2007 (UTC) [ ответить ]

Отсутствует маркировка столбцов/строк матрицы

Пожалуйста, добавьте метки к матрице, какие из них являются фактическими значениями, а какие — прогнозируемыми. Читая текст, становится ясно, но, пожалуйста, обратите внимание, что статья о Receiver Operating Characteristic ссылается здесь и там, матрица путаницы транспонирована (но помечена). Stevemiller 04:30, 9 октября 2007 (UTC) [ ответить ]

Точность

Нам крайне необходимо разъяснение определения точности производителя и пользователя, которая тесно связана с матрицей путаницы. Комментарий добавлен Ctzcheng ( обсуждениевклад ) 17:26, 10 марта 2008 (UTC) [ ответить ]

Удобочитаемость

Строка "Каждый столбец матрицы представляет экземпляры в предсказанном классе" не соответствует рисункам, которые, кажется, имеют истинные классы в строках и предсказанные классы в столбцах. Это кажется немного вводящим в заблуждение.. —Предыдущий неподписанный комментарий, добавленный 128.40.231.243 (обсуждение) 12:15, 1 июля 2009 (UTC) [ ответить ]

Множество цветов в матрице непредвиденных обстоятельств очень отвлекают. («Таблицы в безумных цветах трудно читать». [1] Форматирование таблицы следует упростить, чтобы 4 ячейки на пересечении «Истинное состояние» и «Прогнозируемое состояние» были преобладающими и выделялись на фоне дополнительной информации в других ячейках, особенно тех, где есть формулы. Уменьшите или исключите множество цветов. AEnw (обсуждение) 08:18, 27 декабря 2015 (UTC)Aenw [ ответить ]

Ссылки

  1. ^ "Справка:Введение в таблицы с Wiki-разметкой/5:Расширенное форматирование". Справка Wikipedia .

удалить абзац

Абзац, который начинается со слов: «Когда набор данных не сбалансирован...», вероятно, следует удалить. Я считаю, что это скорее общее свойство алгоритмов классификации, а не свойство этого метода визуализации. BAxelrod ( talk ) 19:23, 16 мая 2011 (UTC) [ ответить ]

Таблица непредвиденных обстоятельств?

Разве это не то же самое, что и Таблица сопряженности ? Я понимаю, что разные поля имеют разный жаргон, но я все равно считаю, что сходство следует признать. 82.181.42.45 (обсуждение) 18:58, 1 ноября 2011 (UTC) [ ответить ]

Согласен, я только что задал тот же вопрос здесь: Обсуждение:Таблица сопряженности событий#Таблица сопряженности событий против матрицы путаницы pgr94 ( обсуждение ) 13:45, 13 июня 2013 (UTC) [ ответить ]
Я не согласен. Матрицу путаницы можно считать особым видом таблицы сопряженности (между реальным и наблюдаемым значением), но я не думаю, что их следует... путать. -- RFST ( обсуждение ) 06:31, 28 марта 2016 (UTC) [ ответить ]

Смешанные конвенции

Введение гласит, что столбцы — это предсказанный класс, а строки — фактический класс. В разделе «Пример» это соглашение изменено без подтверждения. В разделе «Таблица путаницы» используется изначально заявленное соглашение. Я предлагаю ввести замечание о том, что существует несколько соглашений, но затем в статье используется единое соглашение. Doug Paul (обсуждение) 04:07, 29 апреля 2012 (UTC) [ ответить ]

Нормализация

Нормализация матрицы путаницы также должна быть объяснена. — Предыдущий неподписанный комментарий добавлен Scls19fr ( обсуждениевклад ) 12:52, 26 апреля 2015 (UTC) [ ответ ]

Таблица путаницы и истинно отрицательные результаты

Я бы ожидал, что в результате таблицы путаницы будет 14 истинно отрицательных результатов, потому что указано, что это правильно предсказанные не кошки. Итак, (3 собаки + 11 кроликов), которые правильно предсказаны как не кошки. Однако я вижу аргумент в пользу простого сложения всех ((TP+FP+FN) - остальные случаи). Потому что это животные, которые не являются кошками fn, fp или tp. Есть ли у нас какая-то ссылка на формулу, как TN определяется более точно?

(Jogoe12 (обс.) 18:46, 19 декабря 2016 (UTC)). [ ответить ]

Матрица путаницы транспонирована по сравнению со стандартной практикой

Ссылка https://link.springer.com/content/pdf/10.1023%2FA%3A1017181826899.pdf (https://doi.org/10.1023/A:1017181826899) ​​от 1998 года определяет матрицу путаницы, в которой строки являются истинными данными, а столбцы — прогнозируемыми значениями. Сбивает с толку то, что Википедия использует противоположное соглашение, как здесь, так и в ROC. Matlab также использует противоположное соглашение. Lenhamey (обсуждение) 02:31, 2 мая 2019 (UTC) [ ответить ]

Я согласен, что было бы лучше использовать соглашение с истинными значениями в строках. Оно не только лучше согласуется с литературой, но и принято в широко используемой библиотеке Python scikit-learn, поэтому оно обязательно будет появляться все чаще и чаще везде, от научных публикаций до сообщений в блогах и деловых встреч. Ниже приведен пример книг по машинному обучению и статистике, которые принимают соглашение с истинными значениями в строках (третья — известная книга по статистике):

  1. D. Michie, DJ Spiegelhalter и CC Taylor, Eds., Машинное обучение, нейронная и статистическая классификация. Нью-Йорк: Ellis Horwood, 1994.
  2. CD Manning, P. Raghavan и H. Schütze, Введение в информационный поиск. Нью-Йорк: Cambridge University Press, 2008.
  3. Т. Хасти, Р. Тибширани и Дж. Х. Фридман, Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование, 2-е изд. Нью-Йорк, штат Нью-Йорк: Springer, 2009.
  4. Н. Япкович и М. Шах, Оценка алгоритмов обучения: перспектива классификации. Кембридж; Нью-Йорк: Cambridge University Press, 2011.
  5. С. Марсланд, Машинное обучение: алгоритмическая перспектива, 1-е изд. Chapman and Hall/CRC, 2011.
  6. PA Flach, Машинное обучение: искусство и наука алгоритмов, осмысливающих данные. Кембридж; Нью-Йорк: Cambridge University Press, 2012.

Danilosilva128 ( обсуждение ) 14:31, 5 мая 2021 (UTC) [ ответить ]

Что вы думаете Пользователь:cmglee ? Danilosilva128 ( обсуждение ) 14:41, 5 мая 2021 (UTC) [ ответ ]

@Danilosilva128: Спасибо, что поговорили со мной, хотя я не эксперт в этом вопросе. Я на самом деле предпочитаю переключение, так как это делает заголовок Template:diagonal split более аккуратным. Тем не менее, я не видел руководства по стилю, которое предписывало бы это так или иначе. Я бы поостерегся утверждать, что соглашение о том, что все данные являются строками, является стандартным, основываясь исключительно на списке статистических книг: я не проводил поиск, но возможно ли, что сравнительно известные книги, не входящие в список, имеют противоположное соглашение?
Ссылка на Springer гласит:
Матрица, показывающая прогнозируемую и фактическую классификации. Матрица путаницы имеет размер l × l , где l — количество различных значений меток. Следующая матрица путаницы относится к l = 2:
за которым следует матрица. Однако это не означает, что это стандартное соглашение, матрица может быть просто примером.
Кроме того, матрицы путаницы присутствуют во многих статьях, и если мы не можем отследить каждый случай, я думаю, что непоследовательность хуже. Мой 2p, cmɢʟeeτaʟκ 15:05, 5 мая 2021 (UTC) [ ответить ]
P.S. Задано в Википедии:Reference_desk/Mathematics#Orientation_of_confusion_matrix .
@ Cmglee : Я не думаю, что есть "стандартное соглашение": это одна из тех концепций, которую каждый автор может выбрать по своему усмотрению. Просто большинство публикаций и программных пакетов, о которых я знаю, используют нотацию "земля-истина-как-строки". Я считаю, что для Википедии было бы лучше следовать тому, что используется чаще всего; это позволило бы избежать путаницы, особенно для новичков. Я согласен, что непоследовательность нежелательна, поэтому было бы важно отследить каждый случай, но я думаю, что это стоит усилий.
Возможно, в первой статье Википедии по этой теме использовалась определенная нотация (произвольно), и с тех пор в каждой новой статье использовалась та же нотация для единообразия, а не для отражения общепринятой практики.
Конечно, возможно, что моя выборка смещена и наиболее распространенной на самом деле является нотация predicted-as-rows, хотя я в этом сомневаюсь. Я провел еще немного поисков и нашел несколько других ссылок (доступных онлайн):
  • Вероятностное машинное обучение: введение Кевина П. Мерфи, 2021 г.
  • Дж. Уотт, Р. Борхани и А. Кацаггелос, Усовершенствованное машинное обучение: основы, алгоритмы и приложения, 2-е изд. Cambridge University Press, 2020.
  • Энциклопедия машинного обучения, 2011 (цитируется в той же статье Википедии)
  • Принципы интеллектуального анализа данных, 2007 г.
  • https://www.statisticshowto.com/confusion-matrix
  • https://stats.stackexchange.com/questions/77532/ Which-notation-for-confusion-matrix-is-more-accurate
Пока что я не знаю ни одной авторитетной книги по статистике или машинному обучению, которая использовала бы нотацию predicted-as-rows. Danilosilva128 ( talk ) 18:12, 5 мая 2021 (UTC) [ ответить ]
@Danilosilva128: Спасибо за поиск новых книг. Отзыв на Wikipedia:Reference_desk/Mathematics#Orientation_of_confusion_matrix согласен с вашим наблюдением, что нет "стандарта", но кажется, что ground-truth-as-rows более распространен. Ваше объяснение обосновано, хотя другая возможность заключается в том, что ранний редактор усвоил противоположную конвенцию, которая могла быть стандартной в его или ее местоположении.
Если вы все еще заинтересованы в работе над этим, я думаю, что путь вперед — составить список статей (включая затронутые диаграммы), чтобы по крайней мере половина, если не большинство матриц, были изменены за один раз, скажем, в течение дня или выходных. В противном случае редакторы просто отменят изменения из-за обсуждаемой проблемы несоответствия. Это кажется идеальной задачей для Edit-a-thon, если вы можете заинтересовать местное отделение Wikimedia. Я буду рад помочь.
В то же время, пожалуйста, добавьте ссылки на любые затронутые статьи, которые вы найдете, в Talk:Confusion_matrix/Operation_Transposition .
Спасибо,
cmɢʟeeτaʟκ 00:39, 7 мая 2021 (UTC) [ ответить ]
Просто для справки (на случай, если кто-то придет сюда, чтобы понять стоящие за этим рассуждения), вот еще одна причина принять нотацию «истина в виде строк»:
  • Левое предшествует правому при чтении, а истина основания предшествует предсказанию по времени; поэтому маркировка истины основания слева сохраняет это согласие. В частности, легче читать строки матрицы, а не столбцы (поскольку мы обычно читаем именно так), и с обозначением истины основания как строк это соответствует наиболее естественному (причинному) обусловлению: учитывая только отрицательные случаи, сколько предсказаний были отрицательными, а сколько положительными? И т. д.
Danilosilva128 ( обсуждение ) 17:51, 8 мая 2021 (UTC) [ ответить ]
Я пишу этот комментарий после того, как в итоге запутался в этом новом стандарте. Я думаю, было бы неплохо упомянуть сам стандарт (например, там ничего не написано об изменении, и я потерял 40 минут, пытаясь понять, почему моя самодельная матрица и другая оценка, сделанная путем копирования Википедии, отличались от той, которую я закодировал с использованием предыдущего стандарта) + хотя этот способ создания матрицы путаницы - тот, что в упомянутой вами статье 1998 года, существуют и другие, поэтому было бы неплохо хотя бы упомянуть их (как, например, scikit-learn делает в качестве предупреждения). Мой второй комментарий будет об источнике самой матрицы. Первый и третий используют другой стандарт, что сбивает с толку (я не уверен, почему используется второй источник). JackRed6 (обсуждение) 10:51, 4 июня 2021 (UTC) [ ответить ]

удалена одна строка неправильной разметки вверху

Удалил это

 Двойная левая фигурная скобка Термины матрицы путаницы|recall= Двойная правая фигурная скобка

из статьи сегодня, так как я понятия не имею, что он должен делать, и это приводит к беспорядку в начале статьи - Сразу после заголовка и перед «условие положительное(P)» на странице я вижу этот мусор

 "Вставьте здесь неформатированный текст{| class="wikitable" width=35% style="float:right;font-size:98%; margin-left:0.5em; padding:0.25em; background:#f1f5fc;" |+  Терминология и производные из матрицы путаницы |- style="vertical-align:top;" | " — Предыдущий неподписанный комментарий добавлен Thinkadoodle ( обсуждениевклад ) 15:06, 8 июня 2020 (UTC) [ ответить ] 


Можете ли вы отменить это изменение? Эта таблица была одним из лучших справочников по матрице путаницы и ее производным метрикам. Раньше она была в сером поле рядом со статьей. --Marvmind (обсуждение) 21:23, 8 июня 2020 (UTC) [ ответить ]

добавьте формулу:

83.83.238.65 (обсуждение) 11:46, 7 апреля 2021 (UTC)Я бы хотел найти на этой странице следующую формулу: [ ответить ]


FN = (1-чувствительность) * N * распространенность

TP = чувствительность * распространенность * N

TN = (1-распространенность) * N * специфичность

FP = (1-распространенность) * N - TN

Поскольку я не смог их нигде найти, мне пришлось вывести их самостоятельно. (Я проверил правильность по калькулятору на: https://statpages.info/ctab2x2.html )

Они полезны, если кто-то другой сообщает данные о чувствительности, специфичности и распространенности, но не о самой матрице неточностей.

83.83.238.65 (обсуждение) 11:46, 7 апреля 2021 (UTC) [ ответить ]

 Не сделано Поскольку все метрики выводятся из наблюдаемых значений FN, TP, TN и FP, существует очень много способов выражения одной метрики в терминах других. Приоритет отдается выражению производных метрик в терминах более базовых, поскольку отображение их всех загромоздило бы страницу. При необходимости читатель может использовать систему уравнений для пересчета наблюдаемых значений из производных метрик. Ура, cmɢʟee τaʟκ 00:08, 7 мая 2021 (UTC) [ ответить ]

Является ли ошибка первого рода переоценкой или недооценкой?

Я нашел конфликты на странице. Терминология справа (включая рисунок машинного обучения) говорит, что ошибка типа I — это недооценка, тогда как в приведенной ниже таблице путаницы говорится, что ошибка типа I — это переоценка. Какой из них правильный? — Предыдущий неподписанный комментарий добавлен 82.47.241.115 (обсуждение) 09:23, 16 октября 2021 г. (UTC)[ отвечать ]

Я тоже это заметил: обозначения переоценки/недооценки в таблице не совпадают с обозначениями на боковой панели уравнения. Те, что на боковой панели, перевернуты и нуждаются в редактировании (я бы сам внес свой вклад, но не знаю, как это сделать); ложные положительные результаты — это переоценка значений (подсчет данных как 1, когда они должны быть 0), а ложные отрицательные результаты — это недооценка значений (просмотр данных как 0, когда они на самом деле 1). -- Jafonte01 ( обсуждение ) 15:50, 2 ноября 2021 (UTC) [ ответить ]

Предлагаемые изменения в шаблоне включенной формулы

Друзья-википедисты: Я предложил некоторые изменения в инфобоксе формулы, включенном в эту статью, с целью урезать его подавляющую (если не чрезмерную) ширину. Мое оригинальное сообщение с некоторыми пояснительными примечаниями находится на Template talk:Confusion matrix terms#Template_width , и вы можете увидеть измененную компоновку шаблона, которую я предложил, просмотрев его версию sandbox .

Там не было никаких ответов уже более двух месяцев, и поскольку предлагаемые мной изменения достаточно значительны, чтобы быть спорными, я хотел бы пригласить всех заинтересованных википедистов обсудить их на странице обсуждения шаблона . Спасибо! FeRDNYC ( обсуждение ) 00:12, 5 января 2022 (UTC) [ ответ ]

Включение общей оценки эффективности

Уважаемые коллеги!

Недавно я прочитал статью об общем показателе производительности для задач классификации. Это действительно обобщенный показатель производительности, определяемый как гармоническое среднее выбранных и желаемых классических показателей производительности (например, отзыва, специфичности и т. д.). Он полностью адаптируем, и классические показатели производительности являются его частным случаем. Я создал следующий черновик, чтобы включить его в Википедию с целью включения его позже в страницу матрицы путаницы и шаблон:

Проект:Общая оценка эффективности (GPS): общая метрика для оценки проблем классификации

RanchoLancho ( обсуждение ) 17:32, 26 января 2023 (UTC) [ ответить ]

Retrieved from "https://en.wikipedia.org/w/index.php?title=Talk:Confusion_matrix&oldid=1220442841"