Графики параллельных координат являются распространенным методом визуализации многомерных наборов данных для анализа многомерных данных, имеющих несколько переменных или атрибутов.
Для построения или визуализации набора точек в n -мерном пространстве n параллельных линий рисуются на фоне, представляющем оси координат , обычно ориентированные вертикально с равным интервалом. Точки в n -мерном пространстве представляются в виде отдельных полилиний с n вершинами, размещенными на параллельных осях, соответствующих каждому входу координат n -мерной точки, вершины соединяются с n-1 сегментами полилинии.
Эта визуализация данных похожа на визуализацию временных рядов , за исключением того, что параллельные координаты применяются к данным, которые не соответствуют хронологическому времени. Поэтому могут быть интересны различные расположения осей, включая отражение осей по горизонтали, в противном случае инвертирование диапазона атрибутов.
Часто говорят, что концепция параллельных координат возникла в 1885 году благодаря французскому математику Филберту Морису д'Оканю . [1] д'Оканю удалось найти способ графического вычисления математических функций с использованием диаграмм выравнивания, называемых номограммами , которые использовали параллельные оси с различными масштабами. Например, уравнение с тремя переменными можно было решить с помощью трех параллельных осей, отметив известные значения на их шкалах, а затем проведя линию между ними, с неизвестным считыванием со шкалы в точке, где линия пересекает эту шкалу.
Использование параллельных координат в качестве метода визуализации для представления данных также часто приписывают Генри Ганнетту , который ввел его в работу, предшествовавшую Статистическому атласу Соединенных Штатов для переписи 1890 года, например, в его «Общем резюме, показывающем ранг штатов по коэффициентам, 1880» [2] , где ранг 10 показателей (население, профессии, богатство, производство, сельское хозяйство и т. д.) показан на параллельных осях, соединенных линиями для каждого штата.
Однако и д'Оканю, и Ганне в этом отношении намного опередил Андре-Мишель Герри , [3] Таблица IV, «Влияние возраста», где он показал рейтинги преступлений против лиц по возрасту вдоль параллельных осей, связывая одно и то же преступление по возрастным группам. [4]
Параллельные координаты были снова популяризированы 87 лет спустя Альфредом Инсельбергом [5] в 1985 году и систематически развивались как система координат, начиная с 1977 года. Некоторые важные приложения находятся в алгоритмах предотвращения столкновений для управления воздушным движением (1987 г. — 3 патента США), интеллектуальном анализе данных (патент США), компьютерном зрении (патент США), оптимизации, управлении процессами , а в последнее время — в обнаружении вторжений и в других местах.
На плоскости с декартовой системой координат XY добавление дополнительных измерений в параллельных координатах (часто сокращенно ||-координатах, PCP или PC) подразумевает добавление дополнительных осей. Ценность параллельных координат заключается в том, что определенные геометрические свойства в высоких измерениях преобразуются в легко различимые двумерные узоры. Например, набор точек на линии в n -пространстве преобразуется в набор полилиний в параллельных координатах, пересекающихся в n − 1 точках. Для n = 2 это дает двойственность точка-линия, указывающую, почему математические основы параллельных координат разрабатываются в проективном, а не в евклидовом пространстве. Пара линий пересекается в уникальной точке, которая имеет две координаты и, следовательно, может соответствовать уникальной линии, которая также задается двумя параметрами (или двумя точками). Напротив, для задания кривой требуется более двух точек, и также пара кривых может не иметь уникального пересечения. Следовательно, при использовании кривых в параллельных координатах вместо прямых теряется двойственность точек и линий вместе со всеми другими свойствами проективной геометрии и известными красивыми многомерными узорами, соответствующими (гипер)плоскостям, кривым, нескольким гладким (гипер)поверхностям, близостям, выпуклости и недавно неориентируемости. [6] Цель состоит в том, чтобы отобразить n-мерные отношения в двумерные узоры. Следовательно, параллельные координаты — это не отображение точка-точка, а скорее отображение подмножества n D в подмножество 2D, потери информации нет. Примечание: даже точка в nD не отображается в точку в 2D, а в многоугольную линию — подмножество 2D.
При использовании для визуализации статистических данных необходимо учитывать три важных фактора: порядок, поворот и масштабирование осей.
Порядок осей имеет решающее значение для поиска признаков, и в типичном анализе данных необходимо будет попробовать много переупорядочений. Некоторые авторы придумали эвристики упорядочивания, которые могут создавать проясняющие упорядочения. [7]
Вращение осей является переносом в параллельных координатах, и если линии пересекаются вне параллельных осей, то их можно переносить между ними с помощью вращений. Простейшим примером этого является поворот оси на 180 градусов. [8]
Масштабирование необходимо, поскольку график основан на интерполяции (линейной комбинации) последовательных пар переменных. [8] Поэтому переменные должны иметь общий масштаб, и существует множество методов масштабирования, которые следует рассматривать как часть процесса подготовки данных, что может раскрыть более информативные представления.
Гладкий параллельный координатный график достигается с помощью сплайнов. [9] В гладком графике каждое наблюдение отображается в параметрическую линию (или кривую), которая является гладкой, непрерывной на осях и ортогональной каждой параллельной оси. Такая конструкция подчеркивает уровень квантования для каждого атрибута данных. [8]
Инзельберг (Inselberg 1997) сделал полный обзор того, как визуально считывать реляционные паттерны параллельных координат. [10] Когда большинство линий между двумя параллельными осями в некоторой степени параллельны друг другу, это предполагает положительную связь между этими двумя измерениями. Когда линии пересекаются в своего рода суперпозиции X-образных фигур, это отрицательная связь. Когда линии пересекаются случайным образом или параллельны, это показывает, что особой связи нет.
В параллельных координатах каждая ось может иметь не более двух соседних осей (одну слева и одну справа). Для n -мерного набора данных не более n -1 связей могут быть показаны одновременно без изменения подхода. В визуализации временных рядов существует естественный предшественник и последователь; поэтому в этом особом случае существует предпочтительное расположение. Однако, когда оси не имеют уникального порядка, поиск хорошего расположения осей требует использования экспериментов и проектирования признаков. Чтобы исследовать больше связей, оси могут быть переупорядочены или реструктурированы.
Один из подходов размещает оси в трехмерном пространстве (все еще параллельно, образуя решетчатый граф ), ось может иметь более двух соседей по окружности вокруг центрального атрибута, и проблема размещения может быть улучшена с помощью минимального остовного дерева . [11] Прототип этой визуализации доступен как расширение для программного обеспечения для интеллектуального анализа данных ELKI . Однако визуализацию сложнее интерпретировать и взаимодействовать с ней, чем с линейным порядком.
Хотя существует большое количество статей о параллельных координатах, существует лишь несколько заметных программных обеспечений, доступных для преобразования баз данных в графику параллельных координат. [12] Известными программными обеспечениями являются ELKI , GGobi , Mondrian , Orange и ROOT . Библиотеки включают Protovis.js , D3.js предоставляет базовые примеры. Также была опубликована D3.Parcoords.js (библиотека на основе D3), специально предназначенная для создания графики параллельных координат. Библиотека анализа и структуры данных Python Pandas реализует построение графиков параллельных координат с использованием библиотеки построения графиков matplotlib . [13]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite book}}
: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )