Обсуждение:Кластерный анализ

Бесконечность-норма

Может ли кто-нибудь сделать infinity-norm ссылкой: infinity-norm

(Статья в настоящее время заблокирована.)

Саботаж

Похоже, эта страница была намеренно испорчена.

Пожалуйста, разблокируйте эту страницу.

Кластеризация V-средних

Поиск в Google по запросу "V-means clustering" возвращает только эту статью из Википедии. Может ли кто-нибудь дать ссылку на нее?

для будущего использования, это параграф V-means, который был удален

Кластеризация V-средних

Кластеризация V-средних использует кластерный анализ и непараметрические статистические тесты для ключевых исследователей в сегментах данных, которые могут содержать отдельные однородные подмножества. Методология, принятая кластеризацией V-средних, обходит многие проблемы, которые традиционно осаждают стандартные методы категоризации данных. Во-первых, вместо того, чтобы полагаться на прогнозы аналитиков относительно количества отдельных подмножеств (кластеризация k-средних), кластеризация V-средних генерирует оптимальное по Парето количество подмножеств. Кластеризация V-средних калибруется до используемого уровня достоверности p, посредством чего алгоритм делит данные, а затем рекомбинирует полученные группы до тех пор, пока вероятность того, что любая заданная группа принадлежит к тому же распределению, что и любой из ее соседей, не станет меньше p.

Во-вторых, кластеризация V-средних использует повторные итерации непараметрического теста Колмогорова-Смирнова. Стандартные методы разделения данных на составные части часто запутываются в определениях расстояний (кластеризация по мере расстояния) или в предположениях о нормальности данных (кластеризация с максимизацией ожидания), но непараметрический анализ делает выводы из функций распределения множеств.

В-третьих, метод концептуально прост. Некоторые методы объединяют несколько методов последовательно, чтобы получить более надежные результаты. С практической точки зрения это запутывает смысл результатов и часто приводит к выводам, типичным для «выемки данных».

Нечеткое разъяснение c-средств

Я считаю, что в слове «типологический анализ» опечатка; должно быть «топологический».

Объяснение алгоритма нечетких c-средних кажется довольно сложным для понимания, фактический порядок пунктов списка правильный, но то, какой фрагмент следует повторять и когда, вводит в заблуждение.

«Нечеткий алгоритм c-средних во многом похож на алгоритм k-средних:

  • Выберите количество кластеров
  • Назначить случайным образом каждой точке коэффициенты принадлежности к кластерам
  • Повторяйте до тех пор, пока алгоритм не сойдется (то есть изменение коэффициентов между двумя итерациями не превысит ε, заданного порога чувствительности):
    • Вычислите центроид для каждого кластера, используя формулу выше.
    • Для каждой точки вычислите ее коэффициенты принадлежности к кластерам, используя формулу выше.

Кроме того, разве c-средние и k-средние не являются просто разными названиями одного и того же? В таком случае можно ли их изменить, чтобы они были единообразными?



Кластеризация c-means относится только к алгоритму кластеризации нечеткой логики. Можно сказать, что k-means — это конвергенция c-кластеризации с обычной логикой, а не с нечеткой логикой.

Удалить или обновить кластеризацию на основе сетки?

Раздел, посвященный кластеризации на основе сетки, не имеет реальных ссылок и плохо описан по сравнению с остальной частью статьи.

Retrieved from "https://en.wikipedia.org/w/index.php?title=Talk:Cluster_analysis&oldid=1207705817"