Параллельные координаты

Диаграмма, отображающая многомерные данные

Ggobi-flea2 — Параллельный координатный график данных по блохам в GGobi .

Графики параллельных координат являются распространенным методом визуализации многомерных наборов данных для анализа многомерных данных, имеющих несколько переменных или атрибутов.

Для построения или визуализации набора точек в n -мерном пространстве n параллельных линий рисуются на фоне, представляющем оси координат , обычно ориентированные вертикально с равным интервалом. Точки в n -мерном пространстве представляются в виде отдельных полилиний с n вершинами, размещенными на параллельных осях, соответствующих каждому входу координат n -мерной точки, вершины соединяются с n-1 сегментами полилинии.

Эта визуализация данных похожа на визуализацию временных рядов , за исключением того, что параллельные координаты применяются к данным, которые не соответствуют хронологическому времени. Поэтому могут быть интересны различные расположения осей, включая отражение осей по горизонтали, в противном случае инвертирование диапазона атрибутов.

История

Часто говорят, что концепция параллельных координат возникла в 1885 году благодаря французскому математику Филберту Морису д'Оканю . ^[1] д'Оканю удалось найти способ графического вычисления математических функций с использованием диаграмм выравнивания, называемых номограммами , которые использовали параллельные оси с различными масштабами. Например, уравнение с тремя переменными можно было решить с помощью трех параллельных осей, отметив известные значения на их шкалах, а затем проведя линию между ними, с неизвестным считыванием со шкалы в точке, где линия пересекает эту шкалу.

Использование параллельных координат в качестве метода визуализации для представления данных также часто приписывают Генри Ганнетту , который ввел его в работу, предшествовавшую Статистическому атласу Соединенных Штатов для переписи 1890 года, например, в его «Общем резюме, показывающем ранг штатов по коэффициентам, 1880» ^[2] , где ранг 10 показателей (население, профессии, богатство, производство, сельское хозяйство и т. д.) показан на параллельных осях, соединенных линиями для каждого штата.

Однако и д'Оканю, и Ганне в этом отношении намного опередил Андре-Мишель Герри , ^[3] Таблица IV, «Влияние возраста», где он показал рейтинги преступлений против лиц по возрасту вдоль параллельных осей, связывая одно и то же преступление по возрастным группам. ^[4]

Параллельные координаты были снова популяризированы 87 лет спустя Альфредом Инсельбергом ^[5] в 1985 году и систематически развивались как система координат, начиная с 1977 года. Некоторые важные приложения находятся в алгоритмах предотвращения столкновений для управления воздушным движением (1987 г. — 3 патента США), интеллектуальном анализе данных (патент США), компьютерном зрении (патент США), оптимизации, управлении процессами , а в последнее время — в обнаружении вторжений и в других местах.

Более высокие измерения

На плоскости с декартовой системой координат XY добавление дополнительных измерений в параллельных координатах (часто сокращенно ||-координатах, PCP или PC) подразумевает добавление дополнительных осей. Ценность параллельных координат заключается в том, что определенные геометрические свойства в высоких измерениях преобразуются в легко различимые двумерные узоры. Например, набор точек на линии в n -пространстве преобразуется в набор полилиний в параллельных координатах, пересекающихся в n − 1 точках. Для n = 2 это дает двойственность точка-линия, указывающую, почему математические основы параллельных координат разрабатываются в проективном, а не в евклидовом пространстве. Пара линий пересекается в уникальной точке, которая имеет две координаты и, следовательно, может соответствовать уникальной линии, которая также задается двумя параметрами (или двумя точками). Напротив, для задания кривой требуется более двух точек, и также пара кривых может не иметь уникального пересечения. Следовательно, при использовании кривых в параллельных координатах вместо прямых теряется двойственность точек и линий вместе со всеми другими свойствами проективной геометрии и известными красивыми многомерными узорами, соответствующими (гипер)плоскостям, кривым, нескольким гладким (гипер)поверхностям, близостям, выпуклости и недавно неориентируемости. ^[6] Цель состоит в том, чтобы отобразить n-мерные отношения в двумерные узоры. Следовательно, параллельные координаты — это не отображение точка-точка, а скорее отображение подмножества n D в подмножество 2D, потери информации нет. Примечание: даже точка в nD не отображается в точку в 2D, а в многоугольную линию — подмножество 2D.

Статистические соображения

При использовании для визуализации статистических данных необходимо учитывать три важных фактора: порядок, поворот и масштабирование осей.

Порядок осей имеет решающее значение для поиска признаков, и в типичном анализе данных необходимо будет попробовать много переупорядочений. Некоторые авторы придумали эвристики упорядочивания, которые могут создавать проясняющие упорядочения. ^[7]

Вращение осей является переносом в параллельных координатах, и если линии пересекаются вне параллельных осей, то их можно переносить между ними с помощью вращений. Простейшим примером этого является поворот оси на 180 градусов. ^[8]

Масштабирование необходимо, поскольку график основан на интерполяции (линейной комбинации) последовательных пар переменных. ^[8] Поэтому переменные должны иметь общий масштаб, и существует множество методов масштабирования, которые следует рассматривать как часть процесса подготовки данных, что может раскрыть более информативные представления.

Гладкий параллельный координатный график достигается с помощью сплайнов. ^[9] В гладком графике каждое наблюдение отображается в параметрическую линию (или кривую), которая является гладкой, непрерывной на осях и ортогональной каждой параллельной оси. Такая конструкция подчеркивает уровень квантования для каждого атрибута данных. ^[8]

Чтение

Инзельберг (Inselberg 1997) сделал полный обзор того, как визуально считывать реляционные паттерны параллельных координат. ^[10] Когда большинство линий между двумя параллельными осями в некоторой степени параллельны друг другу, это предполагает положительную связь между этими двумя измерениями. Когда линии пересекаются в своего рода суперпозиции X-образных фигур, это отрицательная связь. Когда линии пересекаются случайным образом или параллельны, это показывает, что особой связи нет.

Ограничения

В параллельных координатах каждая ось может иметь не более двух соседних осей (одну слева и одну справа). Для n -мерного набора данных не более n -1 связей могут быть показаны одновременно без изменения подхода. В визуализации временных рядов существует естественный предшественник и последователь; поэтому в этом особом случае существует предпочтительное расположение. Однако, когда оси не имеют уникального порядка, поиск хорошего расположения осей требует использования экспериментов и проектирования признаков. Чтобы исследовать больше связей, оси могут быть переупорядочены или реструктурированы.

Один из подходов размещает оси в трехмерном пространстве (все еще параллельно, образуя решетчатый граф ), ось может иметь более двух соседей по окружности вокруг центрального атрибута, и проблема размещения может быть улучшена с помощью минимального остовного дерева . ^[11] Прототип этой визуализации доступен как расширение для программного обеспечения для интеллектуального анализа данных ELKI . Однако визуализацию сложнее интерпретировать и взаимодействовать с ней, чем с линейным порядком.

Программное обеспечение

Хотя существует большое количество статей о параллельных координатах, существует лишь несколько заметных программных обеспечений, доступных для преобразования баз данных в графику параллельных координат. ^[12] Известными программными обеспечениями являются ELKI , GGobi , Mondrian , Orange и ROOT . Библиотеки включают Protovis.js , D3.js предоставляет базовые примеры. Также была опубликована D3.Parcoords.js (библиотека на основе D3), специально предназначенная для создания графики параллельных координат. Библиотека анализа и структуры данных Python Pandas реализует построение графиков параллельных координат с использованием библиотеки построения графиков matplotlib . ^[13]

Другие визуализации для многомерных данных

Радарная диаграмма — визуализация с осями координат, расположенными радиально.
График Эндрюса – преобразование Фурье графика параллельных координат.
Диаграмма Сэнки — визуализация, подчеркивающая поток/движение/изменение из одного состояния в другое.

Ссылки

^ Окань, М. (1885). Параллельные и осевые координаты: метод геометрического преобразования и новый процесс графического расчета, вытекающий из рассмотрения параллельных координат. Готье-Виллар. archive.org
^ Ганнетт, Генри. «Общее резюме, показывающее ранг штатов по коэффициентам 1880». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Герри, А.-М. (1833). Essai sur la Statistique Morale de la France. Париж: Крошар.
^ Friendly, M. (2022). Жизнь и творчество Андре-Мишеля Герри, пересмотр. Sociological Spectrum, 42(4-6), 233–259. https://doi.org/10.1080/02732173.2022.2078450
^ Инсельберг, Альфред (1985). «Плоскость с параллельными координатами». Visual Computer . 1 (4): 69–91. doi :10.1007/BF01898350. S2CID 15933827.
^ Инсельберг, Альфред (2009). Параллельные координаты: ВИЗУАЛЬНАЯ многомерная геометрия и ее приложения . Springer. ISBN 978-0387215075.
^ Ян, Цзин; Пэн, Вэй; Уорд, Мэтью О.; Рунденштайнер, Элке А. (2003). «Интерактивное иерархическое упорядочение измерений, интервалы и фильтрация для исследования многомерных наборов данных» (PDF) . Симпозиум IEEE по визуализации информации (INFOVIS 2003) : 3–4.
^ abc Moustafa, Rida; Wegman, Edward J. (2006). «Многомерные непрерывные данные – параллельные координаты». В Unwin, A.; Theus, M.; Hofmann, H. (ред.). Графика больших наборов данных: визуализация миллиона . Springer. стр. 143–156. ISBN 978-0387329062.
^ Мустафа, Рида; Вегман, Эдвард Дж. (2002). "О некоторых обобщениях параллельных координатных диаграмм" (PDF) . Seeing a Million, A Data Visualization Workshop, Rain Am Lech (Nr.), Германия . Архивировано из оригинала (PDF) 24.12.2013.
^ Инсельберг, А. (1997), «Многомерный детектив», Визуализация информации, 1997. Труды., Симпозиум IEEE по , стр. 100–107, CiteSeerX 10.1.1.457.3745 , doi :10.1109/INFVIS.1997.636793, ISBN 0-8186-8189-6, S2CID 1823293
^ Элке Ахтерт, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2013). «Интерактивный анализ данных с использованием 3D-параллельных-координатных-деревьев». Труды Международной конференции ACM SIGMOD 2013 года по управлению данными . Нью-Йорк, штат Нью-Йорк. С. 1009–1012. doi :10.1145/2463676.2463696. ISBN 9781450320375. S2CID 14850709.{{cite book}}: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )
^ Косара, Роберт (2010). «Параллельные координаты».
^ Параллельные координаты в Pandas

Дальнейшее чтение

Хайнрих, Джулиан и Вайскопф, Дэниел (2013) Современное состояние параллельных координат , Eurographics 2013 - State of the Art Reports, стр. 95–116
Мустафа, Рида (2011) Параллельные координаты и графики плотности параллельных координат , Wiley Interdisciplinary Reviews: Computational Statistics, том 3(2), стр. 134–148.
Вайделе, Дэниел Карл И. (2019) Условные параллельные координаты , Конференция IEEE по визуализации (VIS) 2019, стр. 221–225

Внешние ссылки

Домашняя страница Альфреда Инсельберга с визуальным руководством, историей, избранными публикациями и приложениями
Исследование методов визуализации многомерных наборов данных, авторы C. Brunsdon, AS Fotheringham и ME Charlton, Университет Ньюкасла , Великобритания
Использование кривых для улучшения визуализации параллельных координат. Архивировано 15 марта 2007 г. на Wayback Machine Мартином Грэмом и Джесси Кеннеди, Университет Напьера , Эдинбург , Великобритания.
Параллельные координаты, учебник Роберта Косары
Условные параллельные координаты – рекурсивный вариант параллельных координат, где категориальное значение может расширяться, чтобы раскрыть другой уровень параллельных координат.

[1] Окань, М. (1885). Параллельные и осевые координаты: метод геометрического преобразования и новый процесс графического расчета, вытекающий из рассмотрения параллельных координат. Готье-Виллар. archive.org

[hg-2] Ганнетт, Генри. «Общее резюме, показывающее ранг штатов по коэффициентам 1880». {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[3] Герри, А.-М. (1833). Essai sur la Statistique Morale de la France. Париж: Крошар.

[4] Friendly, M. (2022). Жизнь и творчество Андре-Мишеля Герри, пересмотр. Sociological Spectrum, 42(4-6), 233–259. https://doi.org/10.1080/02732173.2022.2078450

[pc-5] Инсельберг, Альфред (1985). «Плоскость с параллельными координатами». Visual Computer . 1 (4): 69–91. doi :10.1007/BF01898350. S2CID 15933827.

[pc2-6] Инсельберг, Альфред (2009). Параллельные координаты: ВИЗУАЛЬНАЯ многомерная геометрия и ее приложения . Springer. ISBN 978-0387215075.

[7] Ян, Цзин; Пэн, Вэй; Уорд, Мэтью О.; Рунденштайнер, Элке А. (2003). «Интерактивное иерархическое упорядочение измерений, интервалы и фильтрация для исследования многомерных наборов данных» (PDF) . Симпозиум IEEE по визуализации информации (INFOVIS 2003) : 3–4.

[Gpc2-8] Moustafa, Rida; Wegman, Edward J. (2006). «Многомерные непрерывные данные – параллельные координаты». В Unwin, A.; Theus, M.; Hofmann, H. (ред.). Графика больших наборов данных: визуализация миллиона . Springer. стр. 143–156. ISBN 978-0387329062.

[Gpc1-9] Мустафа, Рида; Вегман, Эдвард Дж. (2002). "О некоторых обобщениях параллельных координатных диаграмм" (PDF) . Seeing a Million, A Data Visualization Workshop, Rain Am Lech (Nr.), Германия . Архивировано из оригинала (PDF) 24.12.2013.

[10] Инсельберг, А. (1997), «Многомерный детектив», Визуализация информации, 1997. Труды., Симпозиум IEEE по , стр. 100–107, CiteSeerX 10.1.1.457.3745 , doi :10.1109/INFVIS.1997.636793, ISBN 0-8186-8189-6, S2CID 1823293

[sigmod13-11] Элке Ахтерт, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2013). «Интерактивный анализ данных с использованием 3D-параллельных-координатных-деревьев». Труды Международной конференции ACM SIGMOD 2013 года по управлению данными . Нью-Йорк, штат Нью-Йорк. С. 1009–1012. doi :10.1145/2463676.2463696. ISBN 9781450320375. S2CID 14850709.{{cite book}}: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )

[12] Косара, Роберт (2010). «Параллельные координаты».

[13] Параллельные координаты в Pandas