DataOps

Аспект аналитики данных

DataOps — это набор практик, процессов и технологий, которые объединяют интегрированный и ориентированный на процессы взгляд на данные с автоматизацией и методами гибкой разработки программного обеспечения для улучшения качества, скорости и сотрудничества, а также для продвижения культуры непрерывного совершенствования в области аналитики данных . [1] Хотя DataOps начинался как набор лучших практик, теперь он превратился в новый и независимый подход к аналитике данных. [2] DataOps применяется ко всему жизненному циклу данных [3] от подготовки данных до составления отчетов и признает взаимосвязанную природу команды аналитики данных и операций в области информационных технологий. [4]

DataOps использует методологию Agile для сокращения времени цикла разработки аналитики в соответствии с бизнес-целями. [3]

DevOps фокусируется на непрерывной доставке, используя ИТ-ресурсы по требованию и автоматизируя тестирование и развертывание программного обеспечения. Это слияние разработки программного обеспечения и ИТ- операций улучшило скорость, качество, предсказуемость и масштаб разработки и развертывания программного обеспечения. Заимствуя методы из DevOps, DataOps стремится привнести эти же улучшения в аналитику данных. [4]

DataOps использует статистический контроль процесса (SPC) для мониторинга и управления конвейером аналитики данных. При наличии SPC данные, проходящие через операционную систему, постоянно контролируются и проверяются на работоспособность. Если происходит аномалия, группа аналитики данных может быть уведомлена с помощью автоматического оповещения. [5]

DataOps не привязан к определенной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты, которые поддерживают DataOps, способствуют сотрудничеству, оркестровке, качеству, безопасности, доступу и простоте использования. [6]

История

DataOps был впервые представлен Ленни Либманном, редактором InformationWeek , в сообщении в блоге IBM Big Data & Analytics Hub под названием «3 причины, по которым DataOps необходим для успеха в области больших данных » 19 июня 2014 года. [7] Термин DataOps позже был популяризирован Энди Палмером из Tamr и Стефом Локком. [8] [4] DataOps — это прозвище для «операций с данными». [3] 2017 год стал знаменательным для DataOps со значительным развитием экосистемы, охватом аналитиков, увеличением поисковых запросов по ключевым словам, опросами, публикациями и проектами с открытым исходным кодом. [9] Gartner назвала DataOps в цикле ажиотажа для управления данными в 2018 году . [10]

Наследие DataOps от DevOps, Agile и производства

Цели и философия

Прогнозируется, что объем данных будет расти со скоростью 32% CAGR до 180 зеттабайт к 2025 году (Источник: IDC). [6] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться с этим значительным ростом данных. [6] Автоматизация оптимизирует ежедневные требования к управлению большими интегрированными базами данных, освобождая команду по работе с данными для разработки новой аналитики более эффективным и действенным способом. [11] [4] DataOps стремится повысить скорость, надежность и качество аналитики данных. [12] Он делает упор на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между специалистами по данным , аналитиками, инженерами по данным/ETL ( извлечение, преобразование, загрузка ), информационными технологиями (ИТ) и обеспечением/управлением качеством.

Выполнение

Тоф Уитмор из Blue Hill Research предлагает следующие принципы лидерства DataOps для отдела информационных технологий : [2]

  • «Установите показатели прогресса и производительности на каждом этапе потока данных. Где это возможно, оцените время цикла потока данных.
  • Определите правила для абстрактного семантического слоя. Убедитесь, что все «говорят на одном языке» и согласны с тем, что данные (и метаданные) являются, а что нет.
  • Проверка с помощью «визуального теста»: включение непрерывно-ориентированных человеческих циклов обратной связи. Потребители должны иметь возможность доверять данным, а это может прийти только с постепенным подтверждением.
  • Автоматизируйте как можно больше этапов потока данных, включая бизнес-анализ, науку о данных и аналитику.
  • Используя информацию о производительности, выявление узких мест и оптимизация для них. Это может потребовать инвестиций в стандартное оборудование или автоматизацию ранее доставляемого человеком этапа обработки данных в процессе.
  • Установите дисциплину управления, уделяя особое внимание двустороннему контролю данных, владению данными, прозрачности и комплексному отслеживанию происхождения данных на протяжении всего рабочего процесса.
  • «Процесс проектирования для роста и расширяемости. Модель потока данных должна быть разработана для размещения объема и разнообразия данных. Убедитесь, что поддерживающие технологии имеют доступную цену для масштабирования с ростом корпоративных данных».

События

  • Оптикон данных [13]
  • Саммит по операциям с данными [14]
  • Чемпион по онлайн-операциям в области данных [15]

Ссылки

  1. ^ Эрет, Джулиан (2018). «DataOps-Towards a Definition» (PDF) . Труды LWDA 2018 : 109.
  2. ^ ab "DataOps – это секрет". www.datasciencecentral.com . Получено 2017-04-05 .
  3. ^ abc "Что такое DataOps (операции с данными)? - Определение с сайта WhatIs.com". SearchDataManagement . Получено 05.04.2017 .
  4. ^ abcd "От DevOps к DataOps, Энди Палмер - Tamr Inc". Tamr Inc. 2015-05-07. Архивировано из оригинала 2018-07-12 . Получено 2017-03-21 .
  5. ^ DataKitchen (2017-03-07). «Секреты бережливого производства, которые можно применить к аналитике данных». Medium . Получено 2017-08-24 .
  6. ^ abc "Что такое DataOps? | Nexla: масштабируемая платформа для операций с данными в эпоху машинного обучения". www.nexla.com . Получено 07.09.2017 .
  7. ^ "3 причины, по которым DataOps необходим для успеха в работе с большими данными". IBM Big Data & Analytics Hub . Получено 10 августа 2018 г.
  8. ^ Mango Solutions: #DataOps - это вещь (честно) , получено 28.06.2021
  9. ^ DataKitchen (19.12.2017). "2017: Год DataOps". data-ops . Получено 24.01.2018 .
  10. ^ "Gartner Hype Cycle for Data Management Positions Three Technologies in Innovation Trigger Phase in 2018". Gartner . Получено 19 июля 2019 г. .
  11. ^ "5 тенденций, влияющих на большие данные в 2017 году". CIO Dive . Получено 07.09.2017 .
  12. ^ "Unravel Data Advances Application Performance Management for Big Data". Тенденции и приложения баз данных . 2017-03-10 . Получено 2017-09-07 .
  13. ^ "DataOpticon - YouTube" . www.youtube.com . Проверено 28 июня 2021 г.
  14. ^ "DataOps Summit". www.dataopssummit-sf.com . Архивировано из оригинала 2021-07-02 . Получено 2021-06-28 .
  15. ^ Intelligence, Corinium Global. "DataOps Champions Online 2021 | Corinium". dco-dataops.coriniumintelligence.com . Получено 28.06.2021 .
Получено с "https://en.wikipedia.org/w/index.php?title=DataOps&oldid=1195906463"