Алгоритмы автоматической кластеризации

Алгоритм обработки данных

Автоматические алгоритмы кластеризации — это алгоритмы, которые могут выполнять кластеризацию без предварительного знания наборов данных. В отличие от других методов кластерного анализа , автоматические алгоритмы кластеризации могут определять оптимальное количество кластеров даже при наличии шума и точек выброса. ^[1]^{[ требуется контекст ]}

Центроидный

При наличии набора из n объектов алгоритмы на основе центроидов создают k разделов на основе функции несходства, такой, что k≤n . Основной проблемой при применении этого типа алгоритма является определение подходящего количества кластеров для немаркированных данных. Поэтому большинство исследований в области кластерного анализа были сосредоточены на автоматизации процесса.

Автоматический выбор k в алгоритме кластеризации K -средних , одном из наиболее используемых алгоритмов кластеризации на основе центроида, по-прежнему является серьезной проблемой в машинном обучении. Наиболее приемлемым решением этой проблемы является метод локтя . Он состоит из запуска кластеризации k -средних для набора данных с диапазоном значений, вычисления суммы квадратов ошибок для каждого и построения их на линейной диаграмме. Если диаграмма выглядит как рука, наилучшее значение k будет на «локте». ^[2]

Другим методом, который модифицирует алгоритм k -средних для автоматического выбора оптимального числа кластеров, является алгоритм G -средних. Он был разработан на основе гипотезы о том, что подмножество данных следует гауссовскому распределению. Таким образом, k увеличивается до тех пор, пока данные каждого центра k -средних не станут гауссовыми. Этот алгоритм требует только стандартный уровень статистической значимости в качестве параметра и не устанавливает ограничений на ковариацию данных. ^[3]

На основе связности (иерархическая кластеризация)

Кластеризация на основе связности или иерархическая кластеризация основана на идее, что объекты имеют больше сходства с другими близлежащими объектами, чем с более удаленными. Поэтому сгенерированные кластеры из этого типа алгоритма будут результатом расстояния между анализируемыми объектами.

Иерархические модели могут быть либо разделительными, где разделы строятся из всего доступного набора данных, либо агломерирующими, где каждый раздел начинается с одного объекта, а дополнительные объекты добавляются к набору. ^[4] Хотя иерархическая кластеризация имеет преимущество, позволяя использовать любую допустимую метрику в качестве определенного расстояния, она чувствительна к шуму и колебаниям в наборе данных и ее сложнее автоматизировать.

Были разработаны методы для улучшения и автоматизации существующих иерархических алгоритмов кластеризации ^[5], таких как автоматизированная версия иерархического кластерного анализа с одной связью (HCA). Этот компьютеризированный метод основывает свой успех на самосогласованном подходе снижения выбросов с последующим построением описательной функции, которая позволяет определять естественные кластеры. Отброшенные объекты также могут быть назначены этим кластерам. По сути, не нужно прибегать к внешним параметрам для идентификации естественных кластеров. Информация, собранная с помощью HCA, автоматизированная и надежная, может быть возобновлена в дендрограмме с числом естественных кластеров и соответствующим разделением, опция, отсутствующая в классическом HCA. Этот метод включает два следующих шага: удаление выбросов (это применяется во многих приложениях фильтрации) и необязательная классификация, позволяющая расширять кластеры со всем набором объектов. ^[6]

BIRCH (сбалансированное итеративное сокращение и кластеризация с использованием иерархий) — это алгоритм, используемый для выполнения кластеризации на основе связности для больших наборов данных. ^[7] Он считается одним из самых быстрых алгоритмов кластеризации, но он ограничен, поскольку требует количества кластеров в качестве входных данных. Поэтому были разработаны новые алгоритмы на основе BIRCH, в которых нет необходимости предоставлять количество кластеров с самого начала, но которые сохраняют качество и скорость кластеров. Основная модификация заключается в удалении последнего шага BIRCH, где пользователь должен был вводить количество кластеров, и улучшении остальной части алгоритма, называемого деревом BIRCH, путем оптимизации порогового параметра из данных. В этом результирующем алгоритме пороговый параметр вычисляется из максимального радиуса кластера и минимального расстояния между кластерами, которые часто известны. Этот метод оказался эффективным для наборов данных из десятков тысяч кластеров. Если выйти за пределы этого количества, возникает проблема разделения суперкластера. Для этого были разработаны другие алгоритмы, такие как MDB-BIRCH, который уменьшает расщепление суперкластера с относительно высокой скоростью. ^[8]

На основе плотности

В отличие от методов разбиения и иерархии, алгоритмы кластеризации на основе плотности способны находить кластеры любой произвольной формы, а не только сферы.

Алгоритм кластеризации на основе плотности использует автономное машинное обучение, которое определяет закономерности относительно географического положения и расстояния до определенного количества соседей. Он считается автономным, поскольку априорные знания о том, что такое кластер, не требуются. ^[9] Этот тип алгоритма предоставляет различные методы для поиска кластеров в данных. Самый быстрый метод — DBSCAN , который использует определенное расстояние для различения плотных групп информации и более разреженного шума. Более того, HDBSCAN может самонастраиваться, используя диапазон расстояний вместо указанного. Наконец, метод OPTICS создает график достижимости на основе расстояния от соседних объектов для отделения шума от кластеров различной плотности.

Эти методы по-прежнему требуют от пользователя предоставления центра кластера и не могут считаться автоматическими. Алгоритм автоматической локальной кластеризации плотности (ALDC) является примером нового исследования, направленного на разработку автоматической кластеризации на основе плотности. ALDC вычисляет локальную плотность и отклонение расстояния каждой точки, тем самым расширяя разницу между потенциальным центром кластера и другими точками. Это расширение позволяет машине работать автоматически. Машина определяет центры кластеров и назначает точки, которые оставлены их ближайшим соседом с более высокой плотностью. ^[10]

В автоматизации плотности данных для идентификации кластеров исследования также были сосредоточены на искусственной генерации алгоритмов. Например, оценка алгоритмов распределения гарантирует генерацию допустимых алгоритмов с помощью направленного ациклического графа (DAG), в котором узлы представляют процедуры (строительные блоки), а ребра представляют возможные последовательности выполнения между двумя узлами. Строительные блоки определяют алфавит EDA или, другими словами, любой сгенерированный алгоритм. Искусственно сгенерированные алгоритмы кластеризации сравниваются с DBSCAN, ручным алгоритмом, в экспериментальных результатах. ^[11]

Ссылки

^ Выброс
^ "Использование метода локтя для определения оптимального количества кластеров для кластеризации k-средних". bl.ocks.org . Получено 12.11.2018 .
^ Хамерли, Грег; Элкан, Чарльз (9 декабря 2003 г.). Себастьян Трун; Лоуренс К. Саул; Бернхард Х. Шёлькопф (ред.). Изучение k в k-средних (PDF) . Труды 16-й Международной конференции по нейронным системам обработки информации. Уистлер, Британская Колумбия, Канада: MIT Press. стр. 281–288 . Архивировано из оригинала (PDF) 16 октября 2022 г. . Получено 3 ноября 2022 г. .{{cite conference}}: CS1 maint: дата и год ( ссылка )
^ "Введение в кластеризацию II: алгоритмы кластеризации - GameAnalytics". GameAnalytics . 2014-05-20 . Получено 06.11.2018 .
^ Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (июнь 2007 г.). «Улучшение иерархического кластерного анализа: новый метод с обнаружением выбросов и автоматической кластеризацией» (PDF) . Chemometrics and Intelligent Laboratory Systems . 87 (2). Elsevier: 208– 217. doi :10.1016/j.chemolab.2007.01.005. hdl :10316/5042. Архивировано из оригинала (PDF) 15 ноября 2018 г. . Получено 3 ноября 2022 г. .
^ Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (2007-06-15). «Улучшение иерархического кластерного анализа: новый метод с обнаружением выбросов и автоматической кластеризацией» (PDF) . Хемометрика и интеллектуальные лабораторные системы . 87 (2): 208– 217. doi :10.1016/j.chemolab.2007.01.005. hdl : 10316/5042 . ISSN 0169-7439.
^ Чжан, Тянь; Рамакришнан, Рагху; Ливни, Мирон; Чжан, Тянь; Рамакришнан, Рагху; Ливни, Мирон (1996-06-01). "BIRCH: эффективный метод кластеризации данных для очень больших баз данных, BIRCH: эффективный метод кластеризации данных для очень больших баз данных". ACM SIGMOD Record . 25 (2): 103, 103– 114, 114. doi : 10.1145/235968.233324 . ISSN 0163-5808.
^ Лорбер, Борис; Косарева Ана; Дева, Берсант; Софтич, Дженан; Руппель, Питер; Куппер, Аксель (01 марта 2018 г.). «Вариации алгоритма кластеризации BIRCH». Исследование больших данных . 11 : 44–53 . doi : 10.1016/j.bdr.2017.09.002 . ISSN 2214-5796.
^ «Как работает кластеризация на основе плотности — ArcGIS Pro | ArcGIS Desktop». pro.arcgis.com . Получено 2018-11-05 .
^ Алгоритм автоматического распознавания центров кластеров на основе локальной плотности кластеризации - Публикация конференции IEEE . Май 2017. С. 1347–1351 . doi :10.1109/CCDC.2017.7978726. ISBN 978-1-5090-4657-7. S2CID 23267464.
^ "AutoClustering: Оценка алгоритма распределения для автоматической генерации алгоритмов кластеризации - Публикация конференции IEEE". Июнь 2012: 1– 7. CiteSeerX 10.1.1.308.9977 . doi :10.1109/CEC.2012.6252874. {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[1] Выброс

[2] "Использование метода локтя для определения оптимального количества кластеров для кластеризации k-средних". bl.ocks.org . Получено 12.11.2018 .

[3] Хамерли, Грег; Элкан, Чарльз (9 декабря 2003 г.). Себастьян Трун; Лоуренс К. Саул; Бернхард Х. Шёлькопф (ред.). Изучение k в k-средних (PDF) . Труды 16-й Международной конференции по нейронным системам обработки информации. Уистлер, Британская Колумбия, Канада: MIT Press. стр. 281–288 . Архивировано из оригинала (PDF) 16 октября 2022 г. . Получено 3 ноября 2022 г. .{{cite conference}}: CS1 maint: дата и год ( ссылка )

[4] "Введение в кластеризацию II: алгоритмы кластеризации - GameAnalytics". GameAnalytics . 2014-05-20 . Получено 06.11.2018 .

[5] Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (июнь 2007 г.). «Улучшение иерархического кластерного анализа: новый метод с обнаружением выбросов и автоматической кластеризацией» (PDF) . Chemometrics and Intelligent Laboratory Systems . 87 (2). Elsevier: 208– 217. doi :10.1016/j.chemolab.2007.01.005. hdl :10316/5042. Архивировано из оригинала (PDF) 15 ноября 2018 г. . Получено 3 ноября 2022 г. .

[6] Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (2007-06-15). «Улучшение иерархического кластерного анализа: новый метод с обнаружением выбросов и автоматической кластеризацией» (PDF) . Хемометрика и интеллектуальные лабораторные системы . 87 (2): 208– 217. doi :10.1016/j.chemolab.2007.01.005. hdl : 10316/5042 . ISSN 0169-7439.

[7] Чжан, Тянь; Рамакришнан, Рагху; Ливни, Мирон; Чжан, Тянь; Рамакришнан, Рагху; Ливни, Мирон (1996-06-01). "BIRCH: эффективный метод кластеризации данных для очень больших баз данных, BIRCH: эффективный метод кластеризации данных для очень больших баз данных". ACM SIGMOD Record . 25 (2): 103, 103– 114, 114. doi : 10.1145/235968.233324 . ISSN 0163-5808.

[8] Лорбер, Борис; Косарева Ана; Дева, Берсант; Софтич, Дженан; Руппель, Питер; Куппер, Аксель (01 марта 2018 г.). «Вариации алгоритма кластеризации BIRCH». Исследование больших данных . 11 : 44–53 . doi : 10.1016/j.bdr.2017.09.002 . ISSN 2214-5796.

[9] «Как работает кластеризация на основе плотности — ArcGIS Pro | ArcGIS Desktop». pro.arcgis.com . Получено 2018-11-05 .

[10] Алгоритм автоматического распознавания центров кластеров на основе локальной плотности кластеризации - Публикация конференции IEEE . Май 2017. С. 1347–1351 . doi :10.1109/CCDC.2017.7978726. ISBN 978-1-5090-4657-7. S2CID 23267464.

[11] "AutoClustering: Оценка алгоритма распределения для автоматической генерации алгоритмов кластеризации - Публикация конференции IEEE". Июнь 2012: 1– 7. CiteSeerX 10.1.1.308.9977 . doi :10.1109/CEC.2012.6252874. {{cite journal}}: Цитировать журнал требует |journal=( помощь )