Преобразование данных |
---|
Концепции |
Языки трансформации |
Техники и преобразования |
Приложения |
Связанный |
|
Обработка данных , иногда называемая обработкой данных , представляет собой процесс преобразования и отображения данных из одной « сырой » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Цель обработки данных — обеспечить качество и полезность данных. Аналитики данных обычно тратят большую часть своего времени на обработку данных по сравнению с фактическим анализом данных.
Процесс обработки данных может включать в себя дальнейшее преобразование , визуализацию данных , агрегацию данных, обучение статистической модели , а также множество других потенциальных применений. Обработка данных обычно следует набору общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «изменения» необработанных данных (например, сортировки) или разбора данных в предопределенные структуры данных и, наконец, помещения полученного контента в приемник данных для хранения и будущего использования. [1] Он тесно связан с процессом ETL .
Нетехнический термин «wrangler» часто называют производным от работы, проделанной Национальной программой по цифровой информационной инфраструктуре и сохранению (NDIIPP) Библиотеки Конгресса США и их партнером по программе MetaArchive Partnership , основанной на библиотеках Университета Эмори . Термин «mung» имеет корни в munging, как описано в Jargon File . [2] Термин «data wrangler» также был предложен как лучшая аналогия для описания человека, работающего с данными. [3]
Одно из первых упоминаний обработки данных в научном контексте было сделано Дональдом Клайном во время эксперимента NASA/NOAA Cold Lands Processes Experiment. [4] Клайн заявил, что обработчики данных «координируют получение всей коллекции данных эксперимента». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища для работы с большими объемами данных . Это может происходить в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это включает как передачу данных из исследовательского прибора в сетку хранения или хранилище, так и обработку данных для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .
С появлением искусственного интеллекта в науке о данных становится все более важным для автоматизации обработки данных иметь очень строгие сдержки и противовесы, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Обработка данных требует большего, чем просто автоматизированное решение, она требует знания того, какую информацию следует удалить, а искусственный интеллект не дошел до понимания таких вещей. [5]
Обработка данных — это надмножество добычи данных , требующее процессов, которые использует некоторая добыча данных, но не всегда. Процесс добычи данных заключается в поиске закономерностей в больших наборах данных, где обработка данных преобразует данные для предоставления информации об этих данных. Несмотря на то, что обработка данных — это надмножество добычи данных, это не означает, что добыча данных не использует ее, существует множество вариантов использования обработки данных в добыче данных. Обработка данных может принести пользу добыче данных, удаляя данные, которые не приносят пользы общему набору или не отформатированы должным образом, что даст лучшие результаты для общего процесса добычи данных.
Примером интеллектуального анализа данных, тесно связанного с обработкой данных, является игнорирование данных из набора, который не связан с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику о жителях Хьюстона; данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой для повышения эффективности процесса интеллектуального анализа данных.
С увеличением необработанных данных увеличивается объем данных, которые по своей сути бесполезны, это увеличивает время, затрачиваемое на очистку и организацию данных перед их анализом, и именно здесь в игру вступает обработка данных. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных, важно обеспечить согласованность метаданных, в противном случае это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, достигать более точных результатов, и благодаря этому можно принимать более обоснованные решения. Многие компании перешли на обработку данных из-за успеха, который она принесла.
Основные этапы обработки данных следующие:
Этот всеобъемлющий термин описывает, как понимать ваши данные. Это первый шаг к ознакомлению с вашими данными.
Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем может быть использован для анализа. Этот процесс утомительный, но вознаграждающий, поскольку он позволяет аналитикам извлекать необходимую им информацию из большого набора данных, который в противном случае был бы нечитаемым.
Имя | Телефон | Дата рождения | Состояние |
---|---|---|---|
Джон, Смит | 445-881-4478 | 12 августа 1989 г. | Мэн |
Дженнифер Таль | +1-189-456-4513 | 11/12/1965 | Текс |
Гейтс, Билл | (876)546-8165 | 15 июня 72 г. | Канзас |
Алан Фитч | 5493156648 | 2-6-1985 | Ой |
Джейкоб Алан | 156-4896 | 3 января | Алабама |
Имя | Телефон | Дата рождения | Состояние |
---|---|---|---|
Джон Смит | 445-881-4478 | 1989-08-12 | Мэн |
Дженнифер Таль | 189-456-4513 | 1965-11-12 | Техас |
Билл Гейтс | 876-546-8165 | 1972-06-15 | Канзас |
Алан Фитч | 549-315-6648 | 1985-02-06 | Огайо |
Результат использования процесса обработки данных на этом небольшом наборе данных показывает, что набор данных стал значительно проще для чтения. Теперь все имена отформатированы одинаково, {имя фамилия}, номера телефонов также отформатированы одинаково {код города-XXX-XXXX}, даты отформатированы в числовом виде {YYYY-mm-dd}, а штаты больше не сокращаются. Запись для Jacob Alan не имела полностью сформированных данных (код города в номере телефона отсутствует, а дата рождения не имела года), поэтому она была удалена из набора данных. Теперь, когда результирующий набор данных очищен и читаем, он готов к развертыванию или оценке.
Преобразования данных обычно применяются к отдельным сущностям (например, полям, строкам, столбцам, значениям данных и т. д.) в наборе данных и могут включать такие действия, как извлечение, анализ, объединение, стандартизация, дополнение, очистка, консолидация и фильтрация для создания желаемых результатов обработки, которые можно использовать на последующих этапах.
Получателями могут быть отдельные лица, например, архитекторы данных или специалисты по обработке данных , которые будут более подробно изучать данные, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут дополнительно обрабатывать данные и записывать их в такие целевые объекты, как хранилища данных , озера данных или нисходящие приложения.
В зависимости от объема и формата входящих данных, обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), инструментов, таких как KNIME , или с помощью скриптов на таких языках, как Python или SQL . R , язык, часто используемый для добычи данных и статистического анализа данных, теперь также иногда используется для обработки данных. [6] Обработчики данных обычно имеют наборы навыков в: R или Python, SQL, PHP, Scala и других языках, обычно используемых для анализа данных.
Системы визуальной обработки данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и более простой для программистов. Некоторые из них также включают встроенные рекомендации ИИ и программирование по примерам для предоставления помощи пользователю, а также методы синтеза программ для автоматической генерации масштабируемого кода потока данных. Ранние прототипы инструментов визуальной обработки данных включают OpenRefine и исследовательскую систему Stanford/Berkeley Wrangler; [7] последняя эволюционировала в Trifacta .
Другие термины для этих процессов включают франчайзинг данных, [8] подготовку данных и обработку данных.
Учитывая набор данных, содержащий информацию о пациентах, ваша цель — найти корреляцию для заболевания. Прежде чем вы сможете начать итерацию данных, убедитесь, что у вас есть понимание результата, ищете ли вы пациентов, у которых есть это заболевание? Существуют ли другие заболевания, которые могут быть причиной? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.
Начните с определения структуры результата, что важно для понимания диагноза заболевания.
После определения окончательной структуры очистите данные, удалив все бесполезные или неправильно сформированные точки данных. К ним могут относиться пациенты, у которых не было диагностировано никаких заболеваний.
После очистки снова посмотрите на данные, есть ли что-то, что можно добавить к набору данных, что уже известно и принесет ему пользу? Примером могут служить наиболее распространенные заболевания в регионе, Америка и Индия сильно отличаются, когда дело касается наиболее распространенных заболеваний.
Теперь наступает этап проверки, необходимо определить правила проверки, для которых необходимо проверить достоверность точек данных. Это может включать дату рождения или проверку на наличие определенных заболеваний.
После этапа проверки данные должны быть организованы и подготовлены либо для развертывания, либо для оценки. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до чего-то, что можно будет легко проанализировать для получения точного результата.