Обработка данных

Реструктуризация данных в желаемый формат

Обработка данных , иногда называемая обработкой данных , представляет собой процесс преобразования и отображения данных из одной « сырой » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Цель обработки данных — обеспечить качество и полезность данных. Аналитики данных обычно тратят большую часть своего времени на обработку данных по сравнению с фактическим анализом данных.

Процесс обработки данных может включать в себя дальнейшее преобразование , визуализацию данных , агрегацию данных, обучение статистической модели , а также множество других потенциальных применений. Обработка данных обычно следует набору общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «изменения» необработанных данных (например, сортировки) или разбора данных в предопределенные структуры данных и, наконец, помещения полученного контента в приемник данных для хранения и будущего использования. ^[1] Он тесно связан с процессом ETL .

Фон

Нетехнический термин «wrangler» часто называют производным от работы, проделанной Национальной программой по цифровой информационной инфраструктуре и сохранению (NDIIPP) Библиотеки Конгресса США и их партнером по программе MetaArchive Partnership , основанной на библиотеках Университета Эмори . Термин «mung» имеет корни в munging, как описано в Jargon File . ^[2] Термин «data wrangler» также был предложен как лучшая аналогия для описания человека, работающего с данными. ^[3]

Одно из первых упоминаний обработки данных в научном контексте было сделано Дональдом Клайном во время эксперимента NASA/NOAA Cold Lands Processes Experiment. ^[4] Клайн заявил, что обработчики данных «координируют получение всей коллекции данных эксперимента». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища для работы с большими объемами данных . Это может происходить в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это включает как передачу данных из исследовательского прибора в сетку хранения или хранилище, так и обработку данных для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .

С появлением искусственного интеллекта в науке о данных становится все более важным для автоматизации обработки данных иметь очень строгие сдержки и противовесы, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Обработка данных требует большего, чем просто автоматизированное решение, она требует знания того, какую информацию следует удалить, а искусственный интеллект не дошел до понимания таких вещей. ^[5]

Подключение к интеллектуальному анализу данных

Обработка данных — это надмножество добычи данных , требующее процессов, которые использует некоторая добыча данных, но не всегда. Процесс добычи данных заключается в поиске закономерностей в больших наборах данных, где обработка данных преобразует данные для предоставления информации об этих данных. Несмотря на то, что обработка данных — это надмножество добычи данных, это не означает, что добыча данных не использует ее, существует множество вариантов использования обработки данных в добыче данных. Обработка данных может принести пользу добыче данных, удаляя данные, которые не приносят пользы общему набору или не отформатированы должным образом, что даст лучшие результаты для общего процесса добычи данных.

Примером интеллектуального анализа данных, тесно связанного с обработкой данных, является игнорирование данных из набора, который не связан с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику о жителях Хьюстона; данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой для повышения эффективности процесса интеллектуального анализа данных.

Преимущества

С увеличением необработанных данных увеличивается объем данных, которые по своей сути бесполезны, это увеличивает время, затрачиваемое на очистку и организацию данных перед их анализом, и именно здесь в игру вступает обработка данных. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных, важно обеспечить согласованность метаданных, в противном случае это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, достигать более точных результатов, и благодаря этому можно принимать более обоснованные решения. Многие компании перешли на обработку данных из-за успеха, который она принесла.

Основные идеи

Основные этапы обработки данных следующие:

Обнаружение данных
Этот всеобъемлющий термин описывает, как понимать ваши данные. Это первый шаг к ознакомлению с вашими данными.
Структурирование
Следующий шаг — организовать данные. Необработанные данные обычно неорганизованы, и большая их часть может оказаться бесполезной для конечного продукта. Этот шаг важен для упрощения вычислений и анализа на последующих этапах.
Уборка
Существует много различных форм очистки данных, например, одна из форм очистки данных — это улавливание дат, отформатированных по-другому, а другая — удаление выбросов, которые искажают результаты, а также форматирование нулевых значений. Этот шаг важен для обеспечения общего качества данных.
Обогащающий
На этом этапе определите, принесут ли пользу набору данных дополнительные данные, которые можно легко добавить.
Проверка
Этот шаг похож на структурирование и очистку. Используйте повторяющиеся последовательности правил проверки , чтобы гарантировать согласованность данных , а также качество и безопасность. Примером правила проверки является подтверждение точности полей путем перекрестной проверки данных.
Издательский
Подготовьте набор данных для использования в нисходящем направлении, что может включать использование для пользователей или программного обеспечения. Обязательно документируйте все шаги и логику во время препирательств.

Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем может быть использован для анализа. Этот процесс утомительный, но вознаграждающий, поскольку он позволяет аналитикам извлекать необходимую им информацию из большого набора данных, который в противном случае был бы нечитаемым.

Начальные данные
Имя	Телефон	Дата рождения	Состояние
Джон, Смит	445-881-4478	12 августа 1989 г.	Мэн
Дженнифер Таль	+1-189-456-4513	11/12/1965	Текс
Гейтс, Билл	(876)546-8165	15 июня 72 г.	Канзас
Алан Фитч	5493156648	2-6-1985	Ой
Джейкоб Алан	156-4896	3 января	Алабама

Результат
Имя	Телефон	Дата рождения	Состояние
Джон Смит	445-881-4478	1989-08-12	Мэн
Дженнифер Таль	189-456-4513	1965-11-12	Техас
Билл Гейтс	876-546-8165	1972-06-15	Канзас
Алан Фитч	549-315-6648	1985-02-06	Огайо

Результат использования процесса обработки данных на этом небольшом наборе данных показывает, что набор данных стал значительно проще для чтения. Теперь все имена отформатированы одинаково, {имя фамилия}, номера телефонов также отформатированы одинаково {код города-XXX-XXXX}, даты отформатированы в числовом виде {YYYY-mm-dd}, а штаты больше не сокращаются. Запись для Jacob Alan не имела полностью сформированных данных (код города в номере телефона отсутствует, а дата рождения не имела года), поэтому она была удалена из набора данных. Теперь, когда результирующий набор данных очищен и читаем, он готов к развертыванию или оценке.

Типичное использование

Преобразования данных обычно применяются к отдельным сущностям (например, полям, строкам, столбцам, значениям данных и т. д.) в наборе данных и могут включать такие действия, как извлечение, анализ, объединение, стандартизация, дополнение, очистка, консолидация и фильтрация для создания желаемых результатов обработки, которые можно использовать на последующих этапах.

Получателями могут быть отдельные лица, например, архитекторы данных или специалисты по обработке данных , которые будут более подробно изучать данные, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут дополнительно обрабатывать данные и записывать их в такие целевые объекты, как хранилища данных , озера данных или нисходящие приложения.

Modus operandi

В зависимости от объема и формата входящих данных, обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), инструментов, таких как KNIME , или с помощью скриптов на таких языках, как Python или SQL . R , язык, часто используемый для добычи данных и статистического анализа данных, теперь также иногда используется для обработки данных. ^[6] Обработчики данных обычно имеют наборы навыков в: R или Python, SQL, PHP, Scala и других языках, обычно используемых для анализа данных.

Системы визуальной обработки данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и более простой для программистов. Некоторые из них также включают встроенные рекомендации ИИ и программирование по примерам для предоставления помощи пользователю, а также методы синтеза программ для автоматической генерации масштабируемого кода потока данных. Ранние прототипы инструментов визуальной обработки данных включают OpenRefine и исследовательскую систему Stanford/Berkeley Wrangler; ^[7] последняя эволюционировала в Trifacta .

Другие термины для этих процессов включают франчайзинг данных, ^[8] подготовку данных и обработку данных.

Пример

Учитывая набор данных, содержащий информацию о пациентах, ваша цель — найти корреляцию для заболевания. Прежде чем вы сможете начать итерацию данных, убедитесь, что у вас есть понимание результата, ищете ли вы пациентов, у которых есть это заболевание? Существуют ли другие заболевания, которые могут быть причиной? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.

Начните с определения структуры результата, что важно для понимания диагноза заболевания.

После определения окончательной структуры очистите данные, удалив все бесполезные или неправильно сформированные точки данных. К ним могут относиться пациенты, у которых не было диагностировано никаких заболеваний.

После очистки снова посмотрите на данные, есть ли что-то, что можно добавить к набору данных, что уже известно и принесет ему пользу? Примером могут служить наиболее распространенные заболевания в регионе, Америка и Индия сильно отличаются, когда дело касается наиболее распространенных заболеваний.

Теперь наступает этап проверки, необходимо определить правила проверки, для которых необходимо проверить достоверность точек данных. Это может включать дату рождения или проверку на наличие определенных заболеваний.

После этапа проверки данные должны быть организованы и подготовлены либо для развертывания, либо для оценки. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до чего-то, что можно будет легко проанализировать для получения точного результата.

Смотрите также

Ссылки

^ "Что такое искажение данных?". Архивировано из оригинала 2013-08-18 . Получено 2022-01-21 .
^ "mung". Mung. Файл жаргона . Архивировано из оригинала 2012-09-18 . Получено 2012-10-10 .
^ Как кодер для кода, X для данных Архивировано 2021-04-15 в Wayback Machine , запись в блоге Open Knowledge Foundation
^ Парсонс, MA; Бродзик, MJ; Раттер, NJ (2004). «Управление данными для эксперимента по процессам на холодной земле: совершенствование гидрологической науки». Гидрологические процессы . 18 (18): 3637– 3653. Bibcode : 2004HyPr...18.3637P. doi : 10.1002/hyp.5801 . S2CID 129774847.
^ "Что такое обработка данных? Каковы этапы обработки данных?". Express Analytics . 2020-04-22. Архивировано из оригинала 2020-11-01 . Получено 2020-12-06 .
^ Wickham, Hadley; Grolemund, Garrett (2016). "Глава 9: Введение в обработку данных". R для науки о данных: импорт, очистка, преобразование, визуализация и моделирование данных (первое издание). Севастополь, Калифорния: O'Reilly. ISBN 978-1491910399. Архивировано из оригинала 2021-10-11 . Получено 2022-01-12 .
^ Кандел, Шон; Пэпке, Андреас (май 2011 г.). «Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных». Труды конференции SIGCHI по человеческому фактору в вычислительных системах . стр. 3363–3372 . doi :10.1145/1978942.1979444. ISBN 978-1-4503-0228-9. S2CID 11133756.
^ Что такое франчайзинг данных? ( IRI 2003 и 2017 ) Архивировано 15 апреля 2021 г. на Wayback Machine

Внешние ссылки

«Что такое обработка данных? Преимущества, инструменты и навыки?». My Influencer Journey . Получено 26.01.2022 .

[eduunix-1] "Что такое искажение данных?". Архивировано из оригинала 2013-08-18 . Получено 2022-01-21 .

[jargon-2] "mung". Mung. Файл жаргона . Архивировано из оригинала 2012-09-18 . Получено 2012-10-10 .

[3] Как кодер для кода, X для данных Архивировано 2021-04-15 в Wayback Machine , запись в блоге Open Knowledge Foundation

[4] Парсонс, MA; Бродзик, MJ; Раттер, NJ (2004). «Управление данными для эксперимента по процессам на холодной земле: совершенствование гидрологической науки». Гидрологические процессы . 18 (18): 3637– 3653. Bibcode : 2004HyPr...18.3637P. doi : 10.1002/hyp.5801 . S2CID 129774847.

[5] "Что такое обработка данных? Каковы этапы обработки данных?". Express Analytics . 2020-04-22. Архивировано из оригинала 2020-11-01 . Получено 2020-12-06 .

[r4ds-6] Wickham, Hadley; Grolemund, Garrett (2016). "Глава 9: Введение в обработку данных". R для науки о данных: импорт, очистка, преобразование, визуализация и моделирование данных (первое издание). Севастополь, Калифорния: O'Reilly. ISBN 978-1491910399. Архивировано из оригинала 2021-10-11 . Получено 2022-01-12 .

[wrangler-paper-7] Кандел, Шон; Пэпке, Андреас (май 2011 г.). «Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных». Труды конференции SIGCHI по человеческому фактору в вычислительных системах . стр. 3363–3372 . doi :10.1145/1978942.1979444. ISBN 978-1-4503-0228-9. S2CID 11133756.

[8] Что такое франчайзинг данных? ( IRI 2003 и 2017 ) Архивировано 15 апреля 2021 г. на Wayback Machine