DataOps — это набор практик, процессов и технологий, которые объединяют интегрированный и ориентированный на процессы взгляд на данные с автоматизацией и методами гибкой разработки программного обеспечения для улучшения качества, скорости и сотрудничества, а также для продвижения культуры непрерывного совершенствования в области аналитики данных . [1] Хотя DataOps начинался как набор лучших практик, теперь он превратился в новый и независимый подход к аналитике данных. [2] DataOps применяется ко всему жизненному циклу данных [3] от подготовки данных до составления отчетов и признает взаимосвязанную природу команды аналитики данных и операций в области информационных технологий. [4]
DataOps использует методологию Agile для сокращения времени цикла разработки аналитики в соответствии с бизнес-целями. [3]
DevOps фокусируется на непрерывной доставке, используя ИТ-ресурсы по требованию и автоматизируя тестирование и развертывание программного обеспечения. Это слияние разработки программного обеспечения и ИТ- операций улучшило скорость, качество, предсказуемость и масштаб разработки и развертывания программного обеспечения. Заимствуя методы из DevOps, DataOps стремится привнести эти же улучшения в аналитику данных. [4]
DataOps использует статистический контроль процесса (SPC) для мониторинга и управления конвейером аналитики данных. При наличии SPC данные, проходящие через операционную систему, постоянно контролируются и проверяются на работоспособность. Если происходит аномалия, группа аналитики данных может быть уведомлена с помощью автоматического оповещения. [5]
DataOps не привязан к определенной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты, которые поддерживают DataOps, способствуют сотрудничеству, оркестровке, качеству, безопасности, доступу и простоте использования. [6]
DataOps был впервые представлен Ленни Либманном, редактором InformationWeek , в сообщении в блоге IBM Big Data & Analytics Hub под названием «3 причины, по которым DataOps необходим для успеха в области больших данных » 19 июня 2014 года. [7] Термин DataOps позже был популяризирован Энди Палмером из Tamr и Стефом Локком. [8] [4] DataOps — это прозвище для «операций с данными». [3] 2017 год стал знаменательным для DataOps со значительным развитием экосистемы, охватом аналитиков, увеличением поисковых запросов по ключевым словам, опросами, публикациями и проектами с открытым исходным кодом. [9] Gartner назвала DataOps в цикле ажиотажа для управления данными в 2018 году . [10]
Прогнозируется, что объем данных будет расти со скоростью 32% CAGR до 180 зеттабайт к 2025 году (Источник: IDC). [6] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться с этим значительным ростом данных. [6] Автоматизация оптимизирует ежедневные требования к управлению большими интегрированными базами данных, освобождая команду по работе с данными для разработки новой аналитики более эффективным и действенным способом. [11] [4] DataOps стремится повысить скорость, надежность и качество аналитики данных. [12] Он делает упор на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между специалистами по данным , аналитиками, инженерами по данным/ETL ( извлечение, преобразование, загрузка ), информационными технологиями (ИТ) и обеспечением/управлением качеством.
Тоф Уитмор из Blue Hill Research предлагает следующие принципы лидерства DataOps для отдела информационных технологий : [2]