Смешивание данных

Смешивание данных — это процесс, при котором большие данные из нескольких источников [1] объединяются в единое хранилище данных или набор данных . [2]

Смешивание данных позволяет бизнес-аналитикам справляться с расширением данных, которые им необходимы для принятия важных бизнес-решений на основе качественной бизнес-аналитики . [3] Смешивание данных описывается как нечто отличное от интеграции данных из-за требований аналитиков данных к объединению источников очень быстро, слишком быстро для любого практического вмешательства со стороны ученых, работающих с данными . [4] Исследование, проведенное Forrester Consulting в 2015 году, показало, что 52 процента компаний объединяют 50 или более источников данных, а 12 процентов объединяют более 1000 источников. [5]

Извлечение, преобразование, загрузка

Смешивание данных похоже на извлечение, преобразование, загрузку (ETL). И ETL, и смешивание данных берут данные из разных источников и объединяют их. Однако ETL используется для слияния и структурирования данных в целевую базу данных, [6] часто хранилище данных . Смешивание данных немного отличается, поскольку речь идет об объединении данных для определенного варианта использования в определенное время. [7] В некоторых программах данные не записываются в базу данных, что сильно отличается от ETL. Например, в Google Data Studio. [8]

Программные продукты

Представляя возросший спрос на аналитиков для объединения источников данных, несколько компаний-разработчиков программного обеспечения добились значительного роста и привлекли миллионы долларов, [9] а некоторые ранние участники рынка теперь являются публичными компаниями. [10] Примерами являются AWS , Alteryx , Microsoft Power Query , [11] и Incorta, [12] которые позволяют объединять данные из множества различных источников данных, например, текстовых файлов, баз данных, XML, JSON и многих других форм структурированных и полуструктурированных данных. [13] [14] [15] [16]

Таблица

В программном обеспечении Tableau смешивание данных — это метод объединения данных из нескольких источников данных в визуализации данных . [17] Ключевым отличием является гранулярность объединения данных. При смешивании данных в один набор данных это будет использовать объединение базы данных SQL , которое обычно будет объединяться на самом гранулярном уровне, используя поле ID, где это возможно. [18] Смешивание данных в Tableau должно происходить на наименее гранулярном уровне. [19]

Студия Лукер

В Looker Studio от Google источники данных объединяются путем объединения записей одного источника данных с записями до 4 других источников данных. Подобно Tableau, смешивание данных происходит только на уровне отчетности. Смешанные данные никогда не хранятся как отдельный объединенный источник данных. [20]

Проблемы со смешиванием данных

Наиболее распространенный вопрос о пользовательских метаданных: «Как этот набор данных может сочетаться (присоединяться или объединяться) с другими моими наборами данных?» [21]

Смотрите также

Ссылки

  1. ^ Alteryx Analytics выводит на рынок возможности прогнозирования и больших данных
  2. ^ Смешивание данных — это процесс объединения данных из нескольких источников в функциональный набор данных.
  3. ^ «Смешивание данных». Trifacta.com. 24 августа 2017 г.
  4. ^ Что такое смешивание данных и какие инструменты упрощают этот процесс?
  5. ^ «Data Mashups для аналитики». Pentaho.
  6. ^ "Как работает ETL" (на немецком). Databricks . Получено 27.02.2021 .
  7. ^ «Что такое смешивание данных и какие инструменты его упрощают?». Software Advice. 2016-08-25 . Получено 2021-02-27 .
  8. ^ "Обзор Google Data Studio". datastudio.google.com . Получено 2021-02-27 .
  9. ^ "Incorta привлекает $30 млн серии C для решения по обработке данных без ETL". TechCrunch . Получено 27.02.2021 .
  10. ^ "Alteryx объявляет цену первичного публичного размещения акций". Alteryx . Получено 2021-02-27 .
  11. ^ Корпорация, Microsoft. "Microsoft Power Query". powerquery.microsoft.com . Получено 27.02.2021 .
  12. ^ "Direct Data Analytics Software". Incorta . Получено 2021-02-27 .
  13. ^ "Источники данных". docs.incorta.com . Получено 2021-02-27 .
  14. ^ davidiseminger. "Формируйте и объединяйте данные из нескольких источников с помощью Power Query". docs.microsoft.com . Получено 27.02.2021 .
  15. ^ "Поддерживаемые источники данных: Amazon QuickSight". docs.aws.amazon.com . Получено 2021-02-27 .
  16. ^ "Источники данных". Справка Alteryx . Получено 2021-02-27 .
  17. ^ "Blend Your Data". help.tableau.com . Получено 2021-02-27 .
  18. ^ "SQL Joins Explained". SQL Joins Explained . Получено 2021-02-27 .
  19. ^ TAR Solutions (2021-01-20). "Смешивание данных в Tableau". TAR Solutions . Получено 2021-02-27 .
  20. ^ "О смешивании данных - Справка по Data Studio". support.google.com . Получено 2021-02-27 .
  21. ^ Хир, Джеффри; Хеллерстайн, Джозеф; Кандел, Шон; Раттенбери, Тай (июль 2017 г.). Принципы обработки данных . O'Reilly Media.
Получено с "https://en.wikipedia.org/w/index.php?title=Data_blending&oldid=1236706870"