Смешивание данных

Смешивание данных — это процесс, при котором большие данные из нескольких источников ^[1] объединяются в единое хранилище данных или набор данных . ^[2]

Смешивание данных позволяет бизнес-аналитикам справляться с расширением данных, которые им необходимы для принятия важных бизнес-решений на основе качественной бизнес-аналитики . ^[3] Смешивание данных описывается как нечто отличное от интеграции данных из-за требований аналитиков данных к объединению источников очень быстро, слишком быстро для любого практического вмешательства со стороны ученых, работающих с данными . ^[4] Исследование, проведенное Forrester Consulting в 2015 году, показало, что 52 процента компаний объединяют 50 или более источников данных, а 12 процентов объединяют более 1000 источников. ^[5]

Извлечение, преобразование, загрузка

Смешивание данных похоже на извлечение, преобразование, загрузку (ETL). И ETL, и смешивание данных берут данные из разных источников и объединяют их. Однако ETL используется для слияния и структурирования данных в целевую базу данных, ^[6] часто хранилище данных . Смешивание данных немного отличается, поскольку речь идет об объединении данных для определенного варианта использования в определенное время. ^[7] В некоторых программах данные не записываются в базу данных, что сильно отличается от ETL. Например, в Google Data Studio. ^[8]

Программные продукты

Представляя возросший спрос на аналитиков для объединения источников данных, несколько компаний-разработчиков программного обеспечения добились значительного роста и привлекли миллионы долларов, ^[9] а некоторые ранние участники рынка теперь являются публичными компаниями. ^[10] Примерами являются AWS , Alteryx , Microsoft Power Query , ^[11] и Incorta, ^[12] которые позволяют объединять данные из множества различных источников данных, например, текстовых файлов, баз данных, XML, JSON и многих других форм структурированных и полуструктурированных данных. ^[13]^[14]^[15]^[16]

Таблица

В программном обеспечении Tableau смешивание данных — это метод объединения данных из нескольких источников данных в визуализации данных . ^[17] Ключевым отличием является гранулярность объединения данных. При смешивании данных в один набор данных это будет использовать объединение базы данных SQL , которое обычно будет объединяться на самом гранулярном уровне, используя поле ID, где это возможно. ^[18] Смешивание данных в Tableau должно происходить на наименее гранулярном уровне. ^[19]

Студия Лукер

В Looker Studio от Google источники данных объединяются путем объединения записей одного источника данных с записями до 4 других источников данных. Подобно Tableau, смешивание данных происходит только на уровне отчетности. Смешанные данные никогда не хранятся как отдельный объединенный источник данных. ^[20]

Проблемы со смешиванием данных

Наиболее распространенный вопрос о пользовательских метаданных: «Как этот набор данных может сочетаться (присоединяться или объединяться) с другими моими наборами данных?» ^[21]

Смотрите также

Ссылки

^ Alteryx Analytics выводит на рынок возможности прогнозирования и больших данных
^ Смешивание данных — это процесс объединения данных из нескольких источников в функциональный набор данных.
^ «Смешивание данных». Trifacta.com. 24 августа 2017 г.
^ Что такое смешивание данных и какие инструменты упрощают этот процесс?
^ «Data Mashups для аналитики». Pentaho.
^ "Как работает ETL" (на немецком). Databricks . Получено 27.02.2021 .
^ «Что такое смешивание данных и какие инструменты его упрощают?». Software Advice. 2016-08-25 . Получено 2021-02-27 .
^ "Обзор Google Data Studio". datastudio.google.com . Получено 2021-02-27 .
^ "Incorta привлекает $30 млн серии C для решения по обработке данных без ETL". TechCrunch . Получено 27.02.2021 .
^ "Alteryx объявляет цену первичного публичного размещения акций". Alteryx . Получено 2021-02-27 .
^ Корпорация, Microsoft. "Microsoft Power Query". powerquery.microsoft.com . Получено 27.02.2021 .
^ "Direct Data Analytics Software". Incorta . Получено 2021-02-27 .
^ "Источники данных". docs.incorta.com . Получено 2021-02-27 .
^ davidiseminger. "Формируйте и объединяйте данные из нескольких источников с помощью Power Query". docs.microsoft.com . Получено 27.02.2021 .
^ "Поддерживаемые источники данных: Amazon QuickSight". docs.aws.amazon.com . Получено 2021-02-27 .
^ "Источники данных". Справка Alteryx . Получено 2021-02-27 .
^ "Blend Your Data". help.tableau.com . Получено 2021-02-27 .
^ "SQL Joins Explained". SQL Joins Explained . Получено 2021-02-27 .
^ TAR Solutions (2021-01-20). "Смешивание данных в Tableau". TAR Solutions . Получено 2021-02-27 .
^ "О смешивании данных - Справка по Data Studio". support.google.com . Получено 2021-02-27 .
^ Хир, Джеффри; Хеллерстайн, Джозеф; Кандел, Шон; Раттенбери, Тай (июль 2017 г.). Принципы обработки данных . O'Reilly Media.

[1] Alteryx Analytics выводит на рынок возможности прогнозирования и больших данных

[2] Смешивание данных — это процесс объединения данных из нескольких источников в функциональный набор данных.

[:0-3] «Смешивание данных». Trifacta.com. 24 августа 2017 г.

[:1-4] Что такое смешивание данных и какие инструменты упрощают этот процесс?

[5] «Data Mashups для аналитики». Pentaho.

[6] "Как работает ETL" (на немецком). Databricks . Получено 27.02.2021 .

[7] «Что такое смешивание данных и какие инструменты его упрощают?». Software Advice. 2016-08-25 . Получено 2021-02-27 .

[8] "Обзор Google Data Studio". datastudio.google.com . Получено 2021-02-27 .

[9] "Incorta привлекает $30 млн серии C для решения по обработке данных без ETL". TechCrunch . Получено 27.02.2021 .

[10] "Alteryx объявляет цену первичного публичного размещения акций". Alteryx . Получено 2021-02-27 .

[11] Корпорация, Microsoft. "Microsoft Power Query". powerquery.microsoft.com . Получено 27.02.2021 .

[12] "Direct Data Analytics Software". Incorta . Получено 2021-02-27 .

[13] "Источники данных". docs.incorta.com . Получено 2021-02-27 .

[14] vidiseminger. "Формируйте и объединяйте данные из нескольких источников с помощью Power Query". docs.microsoft.com . Получено 27.02.2021 .

[15] "Поддерживаемые источники данных: Amazon QuickSight". docs.aws.amazon.com . Получено 2021-02-27 .

[16] "Источники данных". Справка Alteryx . Получено 2021-02-27 .

[17] "Blend Your Data". help.tableau.com . Получено 2021-02-27 .

[18] "SQL Joins Explained". SQL Joins Explained . Получено 2021-02-27 .

[19] TAR Solutions (2021-01-20). "Смешивание данных в Tableau". TAR Solutions . Получено 2021-02-27 .

[20] "О смешивании данных - Справка по Data Studio". support.google.com . Получено 2021-02-27 .

[21] Хир, Джеффри; Хеллерстайн, Джозеф; Кандел, Шон; Раттенбери, Тай (июль 2017 г.). Принципы обработки данных . O'Reilly Media.