Малые данные — это данные , которые достаточно «малы» для человеческого понимания. [1] Это данные в объеме и формате, которые делают их доступными, информативными и применимыми на практике. [2]
Термин « большие данные » относится к машинам, а «малые данные» — к людям. [3] Это означает, что наблюдения очевидцев или пять фрагментов связанных данных могут быть малыми данными. Малые данные — это то, что мы привыкли считать данными. Единственный способ понять Большие данные — это свести данные к небольшим, визуально привлекательным объектам, представляющим различные аспекты больших наборов данных (таких как гистограммы , диаграммы и диаграммы рассеяния). Большие данные — это поиск корреляций , а Малые данные — это поиск причинно-следственной связи , причины. [4]
Формальное определение малых данных было предложено Алленом Бондом, бывшим вице-президентом по инновациям в Actuate , которая теперь является частью OpenText : «Малые данные связывают людей со своевременными, значимыми идеями (полученными из больших данных и/или «локальных» источников), организованными и упакованными — часто визуально — чтобы быть доступными, понятными и применимыми для повседневных задач». [5]
Другое определение малых данных:
Было подсчитано (2016), что «если взять 100 крупнейших инноваций нашего времени, то, возможно, около 60–65% процентов действительно основаны на малых данных» [4] , как выразился Мартин Линдстром . Малые данные включают в себя все, от Snapchat до простых объектов, таких как стикер. Линдстром считает, что мы настолько сосредоточены на больших данных, что склонны забывать о более базовых концепциях и творчестве. Линдстром определяет малые данные «как, казалось бы, незначительные наблюдения, которые вы обнаруживаете в домах потребителей, все, от того, как вы ставите обувь, до того, как вы вешаете свои картины». Таким образом, он считает, что нужно в совершенстве владеть базовыми (малыми данными), чтобы добывать и находить корреляции.
Бонд писал на эту тему для Forbes [7] , Direct Marketing News [8] , CMO.com [9] и других изданий.
По словам Мартина Линдстрома в его книге «Малые данные»: «{В исследовании клиентов малые данные — это}, казалось бы, незначительные поведенческие наблюдения, содержащие очень конкретные атрибуты, указывающие на неудовлетворенную потребность клиента. Малые данные — это основа для прорывных идей или совершенно новых способов перевернуть бренды». [10] Его подход основан на сочетании наблюдения за малыми выборками с интуицией. [11] Маркетологи могут получать рыночные знания из сбора малых данных, взаимодействуя с людьми и наблюдая за ними в их собственной среде. [11] По сравнению с большими данными, малые данные обладают способностью вызывать эмоции и давать представление о причинах поведения клиентов. [12] Они могут раскрыть подробную информацию об экстраверсии или интроверсии человека, уверенности в себе, о том, есть ли у него проблемы в отношениях и т. д. [12] По словам Линдстрома, отношения между людьми и сегментами клиентов организованы вокруг четырех критериев:
Многие компании недооценивают силу малых данных, используя выборки миллионов потребителей вместо того, чтобы признать ценность пристального наблюдения за малыми выборками в своих маркетинговых исследованиях . [11] В своей книге Линдстром определяет «7C», которые компании должны учитывать в попытке получить значимые сведения о клиентах и рыночных тенденциях с помощью малых данных от своих клиентов: [12]
Некоторые из клиентов Lindstrom, такие как Lowes Foods, посмотрели на данные по-другому и фактически решили жить с клиентом. «Когда вы входите в их магазин, они теперь создали удивительное сообщество, где каждый сотрудник действует в настроении персонажа, основанном на Small Data». [4] Супермаркет сделал все возможное, чтобы клиент чувствовал себя как дома. Все поведение сотрудников вдохновлено отзывами клиентов, собранными из интервью, проведенных непосредственно у них дома.
Исследователи из Корнеллского университета начали разрабатывать приложения для мониторинга проблем со здоровьем у пациентов на основе малых данных. Это инициатива Корнеллской лаборатории малых данных [13] в тесном сотрудничестве с Медицинским колледжем Вейлла Корнелла под руководством Деборы Эстрин .
Small Data Lab разработала ряд приложений, сосредоточившись не только на сборе данных о боли пациентов, но и на отслеживании привычек в таких областях, как покупка продуктов. Например , в случае пациентов с ревматоидным артритом , у которых есть вспышки и ремиссии , которые не следуют определенному циклу, приложение собирает информацию пассивно, таким образом, позволяя прогнозировать, когда может наступить вспышка, основываясь на небольших изменениях в поведении. Другие разработанные приложения также включают мониторинг онлайн-покупок продуктов, чтобы использовать эту информацию от каждого пользователя, чтобы адаптировать свои продукты к рекомендациям диетологов, или мониторинг языка электронной почты, чтобы выявить закономерности, которые могут указывать на «колебания когнитивных способностей, усталость, побочные эффекты лекарств или плохой сон, а также другие состояния и методы лечения, которые обычно сообщаются самими пациентами и лечатся самостоятельно». [14]
Почтовая служба США ( USPS) использовала оптическое распознавание символов (OCR) для автоматического чтения и обработки 98% всех отправлений с адресом от руки и 99,5% отправлений с машинным принтом. Объединив эту технологию с небольшой выборкой данных почтовых индексов США, USPS теперь может обрабатывать более 36 000 почтовых отправлений в час. [15]
В 2015 году компания Boeing совместно с Университетом Карнеги-Меллона создала аналитическую лабораторию для аэрокосмических данных, чтобы использовать лидерство университета в области машинного обучения , языковых технологий и анализа данных . [16] Один из проектов инициатив направлен на стандартизацию журналов технического обслуживания с использованием ИИ для значительного сокращения затрат.
В настоящее время не существует стандартизированной процедуры документирования журналов технического обслуживания, что приводит к небольшим, но крайне неструктурированным наборам данных. В результате для работников по техническому обслуживанию становится крайне сложно переводить эти изменения в журналах технического обслуживания в течение короткого периода времени. Однако с помощью ИИ и узкого набора данных общей терминологии по техническому обслуживанию самолетов становится возможным динамически переводить эти журналы в режиме реального времени. Используя ИИ для повышения скорости и точности рабочего процесса технического обслуживания авиакомпаний, авиакомпании могут сэкономить миллиарды, согласно Harvard Business Review . [17]