Смешивание данных — это процесс, при котором большие данные из нескольких источников [1] объединяются в единое хранилище данных или набор данных . [2]
Смешивание данных позволяет бизнес-аналитикам справляться с расширением данных, которые им необходимы для принятия важных бизнес-решений на основе качественной бизнес-аналитики . [3] Смешивание данных описывается как нечто отличное от интеграции данных из-за требований аналитиков данных к объединению источников очень быстро, слишком быстро для любого практического вмешательства со стороны ученых, работающих с данными . [4] Исследование, проведенное Forrester Consulting в 2015 году, показало, что 52 процента компаний объединяют 50 или более источников данных, а 12 процентов объединяют более 1000 источников. [5]
Смешивание данных похоже на извлечение, преобразование, загрузку (ETL). И ETL, и смешивание данных берут данные из разных источников и объединяют их. Однако ETL используется для слияния и структурирования данных в целевую базу данных, [6] часто хранилище данных . Смешивание данных немного отличается, поскольку речь идет об объединении данных для определенного варианта использования в определенное время. [7] В некоторых программах данные не записываются в базу данных, что сильно отличается от ETL. Например, в Google Data Studio. [8]
Представляя возросший спрос на аналитиков для объединения источников данных, несколько компаний-разработчиков программного обеспечения добились значительного роста и привлекли миллионы долларов, [9] а некоторые ранние участники рынка теперь являются публичными компаниями. [10] Примерами являются AWS , Alteryx , Microsoft Power Query , [11] и Incorta, [12] которые позволяют объединять данные из множества различных источников данных, например, текстовых файлов, баз данных, XML, JSON и многих других форм структурированных и полуструктурированных данных. [13] [14] [15] [16]
В программном обеспечении Tableau смешивание данных — это метод объединения данных из нескольких источников данных в визуализации данных . [17] Ключевым отличием является гранулярность объединения данных. При смешивании данных в один набор данных это будет использовать объединение базы данных SQL , которое обычно будет объединяться на самом гранулярном уровне, используя поле ID, где это возможно. [18] Смешивание данных в Tableau должно происходить на наименее гранулярном уровне. [19]
В Looker Studio от Google источники данных объединяются путем объединения записей одного источника данных с записями до 4 других источников данных. Подобно Tableau, смешивание данных происходит только на уровне отчетности. Смешанные данные никогда не хранятся как отдельный объединенный источник данных. [20]
Наиболее распространенный вопрос о пользовательских метаданных: «Как этот набор данных может сочетаться (присоединяться или объединяться) с другими моими наборами данных?» [21]