Примеры интеллектуального анализа данных

Интеллектуальный анализ данных , процесс обнаружения закономерностей в больших наборах данных , используется во многих приложениях.

Бизнес

В бизнесе интеллектуальный анализ данных — это анализ исторических деловых операций, хранящихся в виде статических данных в базах данных хранилищ данных. Цель состоит в том, чтобы выявить скрытые закономерности и тенденции. Программное обеспечение для интеллектуального анализа данных использует передовые алгоритмы распознавания образов для просеивания больших объемов данных с целью обнаружения ранее неизвестной стратегической деловой информации. Примерами того, для чего предприятия используют интеллектуальный анализ данных, являются проведение анализа рынка для определения новых пакетов продуктов, поиск первопричины производственных проблем, предотвращение оттока клиентов и приобретение новых клиентов, перекрестные продажи существующим клиентам и профилирование клиентов с большей точностью. [1]

  • В современном мире компании собирают необработанные данные с огромной скоростью. Например, Walmart ежедневно обрабатывает более 20 миллионов транзакций в точках продаж. Эта информация хранится в централизованной базе данных, но была бы бесполезной без какого-либо программного обеспечения для анализа данных. Если бы Walmart анализировал свои данные в точках продаж с помощью методов анализа данных, они смогли бы определять тенденции продаж, разрабатывать маркетинговые кампании и точнее прогнозировать лояльность клиентов. [2] [3]
  • Категоризация товаров, доступных на сайте электронной коммерции, является фундаментальной проблемой. Правильная система категоризации товаров имеет важное значение для пользовательского опыта, поскольку она помогает определить товары, имеющие отношение к нему для поиска и просмотра. Категоризация товаров может быть сформулирована как контролируемая задача классификации в интеллектуальном анализе данных, где категории являются целевыми классами, а признаки — словами, составляющими некоторое текстовое описание товаров. Один из подходов заключается в том, чтобы найти группы, которые изначально похожи, и поместить их вместе в скрытую группу. Теперь, имея новый товар, сначала классифицируйте его в скрытую группу, которая называется грубой классификацией. Затем выполните второй раунд классификации, чтобы найти категорию, к которой принадлежит товар. [4]
  • Каждый раз, когда используется кредитная карта или карта лояльности магазина, или заполняется гарантийный талон, собираются данные о поведении пользователя. Многие люди считают объем информации, хранящейся о нас у таких компаний, как Google, Facebook и Amazon, тревожным и обеспокоены конфиденциальностью. Хотя существует вероятность того, что наши персональные данные будут использоваться во вредных или нежелательных целях, они также используются для улучшения нашей жизни. Например, Ford и Audi надеются когда-нибудь собирать информацию о манере вождения клиентов, чтобы они могли рекомендовать более безопасные маршруты и предупреждать водителей об опасных дорожных условиях. [5]
  • Анализ данных в приложениях управления взаимоотношениями с клиентами может внести значительный вклад в конечный результат. [ необходима цитата ] Вместо того, чтобы случайным образом связываться с потенциальным или реальным клиентом через колл-центр или отправлять почту, компания может сосредоточить свои усилия на потенциальных клиентах, которые, как прогнозируется, с высокой вероятностью ответят на предложение. Более сложные методы могут использоваться для оптимизации ресурсов в кампаниях, чтобы можно было предсказать, на какой канал и на какое предложение человек, скорее всего, ответит (среди всех потенциальных предложений). Кроме того, сложные приложения могут использоваться для автоматизации рассылки. После того, как результаты анализа данных (потенциальный потенциальный клиент/клиент и канал/предложение) определены, это «сложное приложение» может автоматически отправлять электронное письмо или обычное письмо. Наконец, в случаях, когда многие люди будут совершать действия без предложения, можно использовать « моделирование подъема », чтобы определить, какие люди получат наибольший прирост отклика, если им будет предоставлено предложение. Таким образом, моделирование подъема позволяет маркетологам сосредоточить рассылки и предложения на убеждаемых людях, а не отправлять предложения людям, которые купят продукт без предложения. Кластеризацию данных также можно использовать для автоматического обнаружения сегментов или групп в наборе данных о клиентах.
  • Компании, использующие интеллектуальный анализ данных, могут увидеть возврат инвестиций, но они также понимают, что количество предиктивных моделей может быстро стать очень большим. Например, вместо того, чтобы использовать одну модель для прогнозирования того, сколько клиентов уйдет , компания может решить построить отдельную модель для каждого региона и типа клиентов. В ситуациях, когда необходимо поддерживать большое количество моделей, некоторые компании обращаются к более автоматизированным методологиям интеллектуального анализа данных.
  • Анализ данных может быть полезен для отделов кадров (HR) при определении характеристик их наиболее успешных сотрудников. Полученная информация, например, университеты, в которых обучались высокоэффективные сотрудники, может помочь HR соответствующим образом сосредоточить усилия по подбору персонала. Кроме того, приложения Strategic Enterprise Management помогают компании переводить цели корпоративного уровня, такие как целевые показатели прибыли и маржи, в операционные решения, такие как производственные планы и уровни рабочей силы. [6]
  • Интеллектуальный анализ данных может быть полезен для организаций. Интеллектуальный анализ организационных данных (ODM) определяется как использование инструментов и технологий интеллектуального анализа данных (DM) для улучшения процесса принятия организационных решений путем преобразования данных в ценные и применимые на практике знания с целью получения стратегического и конкурентного преимущества в бизнесе. Полученные данные, такие как показатели текучести кадров, могут помочь организациям соответствующим образом сосредоточить свои усилия по удержанию. Кроме того, приложения для интеллектуального анализа данных и аналитики управления организационной эффективностью помогают фирмам переводить цели на уровне компании, такие как цели по прибыли и продажам, в операционные решения, такие как KPI работников и требуемые измеряемые уровни усилий. [7]
  • Анализ рыночной корзины использовался для определения моделей покупок Alpha Consumer . Анализ данных, собранных по этому типу пользователей, позволил компаниям предсказать будущие тенденции покупок и прогнозировать спрос на поставку. [ необходима цитата ]
  • Интеллектуальный анализ данных является высокоэффективным инструментом в индустрии маркетинга каталогов. [ необходима цитата ] Каталогизаторы имеют обширную базу данных истории транзакций своих клиентов для миллионов клиентов, датируемых несколькими годами. Инструменты интеллектуального анализа данных могут определять закономерности среди клиентов и помогать определять наиболее вероятных клиентов, которые ответят на предстоящие почтовые кампании.
  • Интеллектуальный анализ данных для бизнес-приложений может быть интегрирован в сложный процесс моделирования и принятия решений. [8] LIONsolver использует реактивную бизнес-аналитику (RBI) для пропаганды «целостного» подхода, который объединяет интеллектуальный анализ данных, моделирование и интерактивную визуализацию в сквозной процесс обнаружения и непрерывного внедрения инноваций, поддерживаемый человеческим и автоматизированным обучением. [9]
  • В области принятия решений подход RBI использовался для извлечения знаний, которые постепенно приобретаются у лица, принимающего решения, а затем для самостоятельной настройки метода принятия решений соответствующим образом. [10] Связь между качеством системы извлечения данных и объемом инвестиций, которые лицо, принимающее решения, готово сделать, была формализована путем предоставления экономической перспективы ценности «извлеченных знаний» с точки зрения их выгоды для организации [8]. Эта структура классификации теории принятия решений [8] была применена к реальной производственной линии полупроводниковых пластин, где были разработаны правила принятия решений для эффективного мониторинга и управления производственной линией полупроводниковых пластин. [11]
  • Пример интеллектуального анализа данных, связанный с производственной линией интегральных схем (ИС), описан в статье «Mining IC Test Data to Optimize VLSI Testing». [12] В этой статье описывается применение интеллектуального анализа данных и анализа решений к проблеме функционального тестирования на уровне кристалла. Упомянутые эксперименты демонстрируют возможность применения системы интеллектуального анализа исторических данных испытаний кристалла для создания вероятностной модели закономерностей отказа кристалла. Затем эти закономерности используются для принятия решения в реальном времени, какой кристалл тестировать следующим и когда прекращать тестирование. Было показано, что эта система, основанная на экспериментах с историческими данными испытаний, имеет потенциал для повышения прибыли от зрелых продуктов ИС. Другие примеры [13] [14] применения методологий интеллектуального анализа данных в средах производства полупроводников показывают, что методологии интеллектуального анализа данных могут быть особенно полезны, когда данных мало, а различные физические и химические параметры, которые влияют на процесс, демонстрируют очень сложные взаимодействия. Другим следствием является то, что онлайн-мониторинг процесса производства полупроводников с использованием интеллектуального анализа данных может быть очень эффективным.

Наука и техника

В последние годы интеллектуальный анализ данных широко используется в таких областях науки и техники, как биоинформатика , генетика , медицина , образование и электроэнергетика .

  • В изучении генетики человека, анализ последовательностей помогает решить важную задачу понимания картографической связи между межиндивидуальными вариациями в последовательности ДНК человека и изменчивостью восприимчивости к болезням. Проще говоря, он направлен на выяснение того, как изменения в последовательности ДНК человека влияют на риски развития распространенных заболеваний, таких как рак , что имеет большое значение для улучшения методов диагностики, профилактики и лечения этих заболеваний. Один из методов анализа данных, который используется для выполнения этой задачи, известен как многофакторное снижение размерности . [15]
  • В области электроэнергетики методы добычи данных широко используются для мониторинга состояния высоковольтного электрооборудования. Целью мониторинга состояния является получение ценной информации, например, о состоянии изоляции ( или других важных параметрах, связанных с безопасностью). Методы кластеризации данных , такие как самоорганизующаяся карта (SOM), применяются для мониторинга вибрации и анализа переключателей ответвлений трансформатора под нагрузкой (OLTCS). Используя мониторинг вибрации, можно заметить, что каждая операция переключения ответвлений генерирует сигнал, содержащий информацию о состоянии контактов переключателя ответвлений и приводных механизмов. Очевидно, что разные положения ответвлений будут генерировать разные сигналы. Однако наблюдалась значительная изменчивость среди сигналов нормальных состояний для одного и того же положения ответвлений. SOM применяется для обнаружения ненормальных состояний и выдвижения гипотез о природе отклонений. [16]
  • Методы добычи данных были применены к анализу растворенного газа (DGA) в силовых трансформаторах . DGA, как диагностика для силовых трансформаторов, был доступен в течение многих лет. Такие методы, как SOM, были применены для анализа полученных данных и определения тенденций, которые не очевидны для стандартных методов отношения DGA (таких как треугольник Дюваля). [16]
  • В образовательных исследованиях, где интеллектуальный анализ данных использовался для изучения факторов, побуждающих студентов выбирать поведение, которое снижает их обучение, [17] и для понимания факторов, влияющих на удержание студентов в университете. [18] Похожий пример социального применения интеллектуального анализа данных — его использование в системах поиска экспертов , в которых извлекаются, нормализуются и классифицируются дескрипторы человеческого опыта, чтобы облегчить поиск экспертов, особенно в научных и технических областях. Таким образом, интеллектуальный анализ данных может способствовать институциональной памяти .
  • Методы интеллектуального анализа биомедицинских данных , облегчаемые онтологиями доменов [19], интеллектуальным анализом данных клинических испытаний [20] и анализом трафика с использованием SOM. [21]
  • В надзоре за побочными реакциями на лекарства Центр мониторинга Уппсалы с 1998 года использует методы добычи данных для регулярного скрининга шаблонов отчетности, указывающих на возникающие проблемы безопасности лекарств в глобальной базе данных ВОЗ, содержащей 4,6 миллиона предполагаемых случаев побочных реакций на лекарства . [22] Недавно была разработана аналогичная методология для добычи больших коллекций электронных медицинских карт для временных шаблонов, связывающих рецепты на лекарства с медицинскими диагнозами. [23]
  • Интеллектуальный анализ данных применяется к программным артефактам в области разработки программного обеспечения : интеллектуальный анализ репозиториев программного обеспечения .
  • В области микробиологии методы интеллектуального анализа данных использовались для прогнозирования поведения популяции бактерий в пищевых продуктах. [24]

Права человека

Анализ данных из правительственных записей, в частности записей системы правосудия (т. е. судов, тюрем), позволяет обнаружить системные нарушения прав человека в связи с созданием и публикацией недействительных или мошеннических юридических записей различными государственными учреждениями. [25] [26]

Анализ медицинских данных

Некоторые алгоритмы машинного обучения могут применяться в медицинской сфере в качестве диагностических инструментов второго мнения и инструментов для фазы извлечения знаний в процессе обнаружения знаний в базах данных . Один из этих классификаторов (называемый классификатором обучения на основе прототипа (PEL-C) [27] способен обнаруживать синдромы , а также нетипичные клинические случаи.

Текущая медицинская область, которая использует процесс добычи данных, — это метаболомика , которая является исследованием и изучением биологических молекул и того, как характеризуется их взаимодействие с жидкостями организма, клетками, тканями и т. д. [28] Метаболомика — это предмет, требующий очень большого объема данных, и часто включает в себя просеивание огромных объемов нерелевантных данных перед тем, как прийти к каким-либо выводам. Добыча данных позволила этой относительно новой области медицинских исследований значительно вырасти за последнее десятилетие и, вероятно, станет методом, с помощью которого будут найдены новые исследования в рамках предмета. [28]

В 2011 году дело Соррелла против IMS Health, Inc. , рассмотренное Верховным судом США , постановило, что аптеки могут обмениваться информацией с внешними компаниями. Такая практика была разрешена в соответствии с 1-й поправкой к Конституции , защищающей «свободу слова». [29] Однако принятие Закона о медицинских информационных технологиях для экономического и клинического здравоохранения (Закон HITECH) помогло инициировать принятие электронных медицинских карт (EHR) и поддерживающих технологий в Соединенных Штатах. [30] Закон HITECH был подписан 17 февраля 2009 года как часть Закона о восстановлении и реинвестировании Америки (ARRA) и помог открыть дверь для анализа медицинских данных. [31] До подписания этого закона, по оценкам, только 20% врачей в Соединенных Штатах использовали электронные карты пациентов. [30] Сёрен Брунак отмечает, что «карта пациента становится максимально информативной» и тем самым «максимизирует возможности анализа данных». [30] Таким образом, электронные истории болезни пациентов еще больше расширяют возможности анализа медицинских данных, тем самым открывая дверь к обширному источнику анализа медицинских данных.

Пространственный анализ данных

Пространственный анализ данных — это применение методов анализа данных к пространственным данным. Конечной целью пространственного анализа данных является поиск закономерностей в данных относительно географии. До сих пор анализ данных и географические информационные системы (ГИС) существовали как две отдельные технологии, каждая со своими собственными методами, традициями и подходами к визуализации и анализу данных. В частности, большинство современных ГИС имеют только очень базовую функциональность пространственного анализа. Огромный взрыв географически привязанных данных, вызванный разработками в области ИТ, цифрового картографирования, дистанционного зондирования и глобального распространения ГИС, подчеркивает важность разработки индуктивных подходов на основе данных к географическому анализу и моделированию.

Data mining предлагает большие потенциальные выгоды для принятия решений на основе ГИС. В последнее время задача интеграции этих двух технологий стала критически важной, особенно по мере того, как различные организации государственного и частного секторов, обладающие огромными базами данных с тематическими и географически привязанными данными, начинают осознавать огромный потенциал содержащейся в них информации. Среди этих организаций:

  • Офисы, которым требуется анализ или распространение геопривязанных статистических данных
  • Службы общественного здравоохранения ищут объяснения кластеризации заболеваний
  • Экологические агентства оценивают влияние изменения моделей землепользования на изменение климата
  • Геомаркетинговые компании проводят сегментацию клиентов на основе пространственного местоположения.

Проблемы в пространственном майнинге: Геопространственные репозитории данных, как правило, очень большие. Более того, существующие наборы данных ГИС часто раздроблены на компоненты признаков и атрибутов, которые традиционно архивируются в гибридных системах управления данными. Алгоритмические требования существенно различаются для реляционного (атрибутивного) управления данными и для топологического (признакового) управления данными. [32] С этим связан диапазон и разнообразие форматов географических данных, которые представляют уникальные проблемы. Революция цифровых географических данных создает новые типы форматов данных за пределами традиционных «векторных» и «растровых» форматов. Географические репозитории данных все чаще включают плохо структурированные данные, такие как изображения и геопривязанные мультимедиа. [33]

Существует несколько критических исследовательских задач в области открытия географических знаний и добычи данных. Миллер и Хан [34] предлагают следующий список новых исследовательских тем в этой области:

  • Разработка и поддержка географических хранилищ данных (GDW) : Пространственные свойства часто сводятся к простым апространственным атрибутам в основных хранилищах данных. Создание интегрированного GDW требует решения проблем взаимодействия пространственных и временных данных, включая различия в семантике, системах ссылок, геометрии, точности и положении.
  • Лучшие пространственно-временные представления в обнаружении географических знаний : Текущие методы обнаружения географических знаний (GKD) обычно используют очень простые представления географических объектов и пространственных отношений. Методы добычи географических данных должны распознавать более сложные географические объекты (т. е. линии и полигоны) и отношения (т. е. неевклидовы расстояния, направление, связность и взаимодействие через атрибутивное географическое пространство, такое как рельеф). Кроме того, измерение времени должно быть более полно интегрировано в эти географические представления и отношения.
  • Обнаружение географических знаний с использованием различных типов данных : необходимо разработать методы GKD, которые могут обрабатывать различные типы данных, выходящие за рамки традиционных растровых и векторных моделей, включая изображения и геопривязанные мультимедиа, а также динамические типы данных (видеопотоки, анимация).

Временной анализ данных

Данные могут содержать атрибуты, созданные и записанные в разное время. В этом случае поиск значимых связей в данных может потребовать рассмотрения временного порядка атрибутов. Временная связь может указывать на причинно-следственную связь или просто на ассоциацию. [ необходима цитата ]

Извлечение данных с датчиков

Беспроводные сенсорные сети могут использоваться для облегчения сбора данных для пространственного анализа данных для различных приложений, таких как мониторинг загрязнения воздуха. [35] Характерной чертой таких сетей является то, что соседние сенсорные узлы, контролирующие экологическую особенность, обычно регистрируют схожие значения. Этот вид избыточности данных из-за пространственной корреляции между наблюдениями датчиков вдохновляет методы агрегации и анализа данных в сети. Измеряя пространственную корреляцию между данными, полученными с разных датчиков, можно разработать широкий класс специализированных алгоритмов для разработки более эффективных алгоритмов пространственного анализа данных. [36]

Визуальный анализ данных

В процессе перехода от аналогового к цифровому были созданы, собраны и сохранены большие наборы данных, обнаруживающие статистические закономерности, тенденции и информацию, скрытую в данных, для построения предиктивных закономерностей. Исследования показывают, что визуальный анализ данных быстрее и гораздо более интуитивен, чем традиционный анализ данных. [37] [38] [39] См. также Компьютерное зрение .

Добыча музыкальных данных

Методы интеллектуального анализа данных, и в частности анализ совместного появления , использовались для обнаружения соответствующих сходств среди музыкальных корпусов (радиосписки, базы данных компакт-дисков) для целей, включающих классификацию музыки по жанрам более объективным образом. [40]

Наблюдение

Data mining использовался правительством США. Программы включают в себя программу Total Information Awareness (TIA), Secure Flight (ранее известную как Computer-Assisted Passenger Prescreening System ( CAPPS II )), Analysis, Dissemination, Visualization, Insight, Semantic Enhancement ( ADVISE ) [41] и Multi-state Anti-Terrorism Information Exchange ( MATRIX ). [42] Эти программы были прекращены из-за споров о том, нарушают ли они 4-ю поправку к Конституции США, хотя многие программы, которые были сформированы в рамках них, продолжают финансироваться разными организациями или под разными названиями. [43]

В контексте борьбы с терроризмом двумя особенно вероятными методами добычи данных являются «анализ шаблонов» и «анализ данных на основе субъектов».

Разработка шаблонов

«Pattern mining» — это метод добычи данных, который включает в себя поиск существующих шаблонов в данных. В этом контексте шаблоны часто означают правила ассоциации . Первоначальная мотивация поиска правил ассоциации возникла из желания проанализировать данные о транзакциях в супермаркетах, то есть изучить поведение покупателей с точки зрения приобретенных товаров. Например, правило ассоциации «пиво ⇒ картофельные чипсы (80%)» гласит, что четверо из пяти покупателей, купивших пиво, также купили картофельные чипсы.

В контексте анализа шаблонов как инструмента для выявления террористической деятельности Национальный исследовательский совет дает следующее определение: «Анализ данных на основе шаблонов ищет шаблоны (включая аномальные шаблоны данных), которые могут быть связаны с террористической деятельностью — эти шаблоны можно рассматривать как небольшие сигналы в большом океане шума». [44] [45] [46] Анализ шаблонов включает новые области, такие как поиск музыкальной информации (MIR), где шаблоны, наблюдаемые как во временной, так и во вневременной областях, импортируются в классические методы поиска знаний.

Субъектный анализ данных

«Субъектный интеллектуальный анализ данных» — это метод интеллектуального анализа данных, включающий поиск связей между лицами в данных. В контексте борьбы с терроризмом Национальный исследовательский совет дает следующее определение: «Субъектный интеллектуальный анализ данных использует инициирующее лицо или другие данные, которые считаются, на основе другой информации, представляющими большой интерес, и цель состоит в том, чтобы определить, какие другие лица или финансовые транзакции или движения и т. д. связаны с этими инициирующими данными». [45]

Сетка знаний

Обнаружение знаний «On the Grid» обычно относится к проведению обнаружения знаний в открытой среде с использованием концепций сетевых вычислений , позволяющих пользователям интегрировать данные из различных онлайн-источников данных, а также использовать удаленные ресурсы для выполнения своих задач по добыче данных. Самым ранним примером была Discovery Net , [47] [48], разработанная в Имперском колледже Лондона , которая выиграла премию «Самое инновационное приложение с интенсивным использованием данных» на конференции и выставке ACM SC02 (Supercomputing 2002), основанную на демонстрации полностью интерактивного распределенного приложения обнаружения знаний для биоинформатического приложения. Другие примеры включают работу, проведенную исследователями в Университете Калабрии , которые разработали архитектуру Knowledge Grid для распределенного обнаружения знаний на основе сетевых вычислений . [49] [50]

Ссылки

  1. ^ О'Брайен, Дж. А., и Маракас, генеральный менеджер (2011). Информационные системы управления. Нью-Йорк, штат Нью-Йорк: МакГроу-Хилл/Ирвин.
  2. ^ Александр, Дуг. «Data Mining». Техасский университет в Остине: Колледж свободных искусств.
  3. ^ "Daniele Medri: Big Data & Business: An on-going revolution". Статистика просмотров. 21 октября 2013 г. Архивировано из оригинала 17 июня 2015 г. Получено 21 сентября 2015 г.
  4. ^ "Крупномасштабная классификация предметов" (PDF) . Архивировано из оригинала (PDF) 2015-10-05.
  5. ^ Госс, С. (2013, 10 апреля). Добыча данных и наша личная конфиденциальность. Получено из The Telegraph: «Добыча данных и наша личная конфиденциальность | the Sun News | Macon.com». Архивировано из оригинала 2014-07-05 . Получено 2015-09-21 .
  6. ^ Монк, Эллен; Вагнер, Брет (2006). Концепции планирования ресурсов предприятия, второе издание . Бостон, Массачусетс: Технология курса Томсона. ISBN 978-0-619-21663-4. OCLC  224465825.
  7. ^ Chalutz-Ben Gal, H. (2023). Rokach, L.; Maimon, O.; Shmueli, E. (ред.). «Human Resources-Based Organizational Data Mining (HRODM): Themes, Trends, Focus, Future» (PDF) . Springer. стр.  833–866 .
  8. ^ abc Elovici, Yuval; Braha, Dan (2003). "Подход к анализу данных с точки зрения теории принятия решений" (PDF) . Труды IEEE по системам, человеку и кибернетике - Часть A: Системы и люди . 33 (1): 42– 51. doi :10.1109/TSMCA.2003.812596. hdl : 10150/105859 .
  9. ^ Баттити, Роберто; и Брунато, Мауро; Реактивная бизнес-аналитика. От данных к моделям и к пониманию , Reactive Search Srl, Италия, февраль 2011 г. ISBN 978-88-905795-0-9 . 
  10. ^ Баттити, Роберто; Пассерини, Андреа (2010). «Эволюционная многоцелевая оптимизация мозга и компьютера (BC-EMO): генетический алгоритм, адаптирующийся к лицу, принимающему решения» (PDF) . IEEE Transactions on Evolutionary Computation . 14 (15): 671– 687. doi :10.1109/TEVC.2010.2058118. S2CID  2182650.
  11. ^ Браха, Дэн; Эловичи, Ювал; Ласт, Марк (2007). «Теория практического интеллектуального анализа данных с применением к управлению производством полупроводников» (PDF) . Международный журнал исследований производства . 45 (13): 3059– 3084. CiteSeerX 10.1.1.127.1472 . doi :10.1080/00207540600654475. S2CID  2299178. 
  12. ^ Фонтан, Тони; Дитерих, Томас; и Судыка, Билл (2000); Сбор данных испытаний ИС для оптимизации тестирования СБИС, в Трудах Шестой международной конференции ACM SIGKDD по обнаружению знаний и сбору данных, ACM Press, стр. 18–25
  13. ^ Браха, Дэн; Шмиловичи, Армин (2002). «Интеллектуальный анализ данных для улучшения процесса очистки в полупроводниковой промышленности» (PDF) . IEEE Transactions on Semiconductor Manufacturing . 15 (1): 91– 101. CiteSeerX 10.1.1.10.7921 . doi :10.1109/66.983448. 
  14. ^ Браха, Дэн; Шмиловичи, Армин (2003). «Об использовании индукции дерева решений для обнаружения взаимодействий в фотолитографическом процессе» (PDF) . IEEE Transactions on Semiconductor Manufacturing . 16 (4): 644– 652. doi :10.1109/TSM.2003.818959.
  15. ^ Чжу, Синцюань; Дэвидсон, Ян (2007). Обнаружение знаний и интеллектуальный анализ данных: проблемы и реалии . Нью-Йорк, Нью-Йорк: Hershey. стр. 18. ISBN 978-1-59904-252-7.
  16. ^ ab McGrail, Anthony J.; Gulski, Edward; Allan, David; Birtwhistle, David; Blackburn, Trevor R.; Groot, Edwin RS "Методы интеллектуального анализа данных для оценки состояния высоковольтных электроустановок". CIGRÉ WG 15.11 Исследовательского комитета 15 .
  17. ^ Бейкер, Райан С. Дж. Д. «Являются ли игры состоянием или чертой системы? Интеллектуальный анализ образовательных данных посредством многоконтекстного применения проверенной поведенческой модели». Семинар по интеллектуальному анализу данных для моделирования пользователей 2007 г.
  18. ^ Суперби Агирре, Хуан Франциско; Вандам, Жан-Филипп; Мескенс, Надин. «Определение факторов, влияющих на успеваемость студентов первого курса университета с использованием методов добычи данных». Семинар по добыче данных в образовании 2006 г.
  19. ^ Чжу, Синцюань; Дэвидсон, Ян (2007). Обнаружение знаний и интеллектуальный анализ данных: проблемы и реалии . Нью-Йорк, Нью-Йорк: Hershey. С.  163–189 . ISBN 978-1-59904-252-7.
  20. ^ Чжу, Синцюань; Дэвидсон, Ян (2007). Обнаружение знаний и интеллектуальный анализ данных: проблемы и реалии . Нью-Йорк, Нью-Йорк: Hershey. С.  31–48 . ISBN 978-1-59904-252-7.
  21. ^ Чэнь, Юйдун; Чжан, И; Ху, Цзяньмин; Ли, Сян (2006). «Анализ данных о дорожном движении с использованием ядра PCA и самоорганизующейся карты». Симпозиум IEEE по интеллектуальным транспортным средствам 2006 г. С.  472– 477. doi :10.1109/IVS.2006.1689673. ISBN 978-4-901122-86-3. S2CID  16645060.
  22. ^ Бэйт, Эндрю; Линдквист, Мари; Эдвардс, И. Ральф; Олссон, Стен; Орре, Роланд; Ланснер, Андерс; де Фрейтас, Рохелио Мельядо (июнь 1998 г.). "Метод байесовой нейронной сети для генерации сигнала неблагоприятной лекарственной реакции" (PDF) . Европейский журнал клинической фармакологии . 54 (4): 315–21 . doi :10.1007/s002280050466. PMID  9696956. S2CID  25966839.[ постоянная мертвая ссылка ‍ ]
  23. ^ Норен, Г. Никлас; Бэйт, Эндрю; Хопстадиус, Йохан; Стар, Кристина; и Эдвардс, И. Ральф (2008); Временное обнаружение закономерностей для тенденций и переходных эффектов: его применение к записям пациентов. Труды четырнадцатой международной конференции по обнаружению знаний и интеллектуальному анализу данных (SIGKDD 2008), Лас-Вегас, Невада , стр. 963–971.
  24. ^ Хиура, Сатоко; Косеки, Шиге; Кояма, Кенто (19.05.2021). «Прогнозирование поведения популяции Listeria monocytogenes в пищевых продуктах с использованием машинного обучения и базы данных по росту и выживанию микроорганизмов». Scientific Reports . 11 (1): 10613. Bibcode :2021NatSR..1110613H. doi :10.1038/s41598-021-90164-z. ISSN  2045-2322. PMC 8134468 . PMID  34012066. 
  25. ^ Зерник, Джозеф; Сбор данных как гражданская обязанность – онлайн-системы регистрации государственных заключенных, Международный журнал социальных сетей: мониторинг, измерение, сбор данных , 1: 84–96 (2010)
  26. ^ Зерник, Джозеф; Анализ данных из онлайн-судебных записей сетевых федеральных судов США, Международный журнал социальных сетей: мониторинг, измерение, анализ , 1:69–83 (2010)
  27. ^ Гальярди, Ф. (2011). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний». Искусственный интеллект в медицине . 52 (3): 123– 139. doi : 10.1016/j.artmed.2011.04.002. PMID  21621400.
  28. ^ аб Мартинес-Арранс, Ибон; Мэйо, Ребека; Перес-Корменсана, Мириам; Минчоле, Ициар; Салазар, Лорена; Алонсо, Кристина; Мато, Хосе М. (2015). «Расширение метаболомических исследований посредством интеллектуального анализа данных». Журнал протеомики . 127 (Pt B): 275–288 . doi :10.1016/j.jprot.2015.01.019. ПМИД  25668325.
  29. ^ Дэвид Г. Сэвидж (24.06.2011). «Фармацевтическая промышленность: Верховный суд встал на сторону фармацевтической промышленности в двух решениях». Los Angeles Times . Получено 07.11.2012 .
  30. ^ abc Goth, Gregory (2012). «Анализ медицинских данных». Сообщения ACM . 55 (6): 13. doi :10.1145/2184319.2184324.
  31. ^ «Что такое Закон HITECH (медицинские информационные технологии для экономического и клинического здравоохранения) 2009 года? | Определение от TechTarget».
  32. ^ Хили, Ричард Г. (1991); Системы управления базами данных , в Maguire, Дэвид Дж.; Goodchild, Майкл Ф.; и Rhind, Дэвид У., (ред.), Географические информационные системы: принципы и приложения , Лондон, Великобритания: Longman
  33. ^ Камара, Антонио С.; и Рэпер, Джонатан (ред.) (1999); Пространственные мультимедиа и виртуальная реальность , Лондон, Великобритания: Тейлор и Фрэнсис
  34. ^ Миллер, Харви Дж.; и Хан, Цзявей (ред.) (2001); Географический анализ данных и обнаружение знаний , Лондон, Великобритания: Тейлор и Фрэнсис
  35. ^ Ma, Y.; Richards, M.; Ghanem, M.; Guo, Y.; Hassard, J. (2008). «Мониторинг загрязнения воздуха и добыча полезных ископаемых на основе сенсорной сети в Лондоне». Датчики . 8 (6): 3601– 3623. Bibcode : 2008Senso...8.3601M. doi : 10.3390/s8063601 . PMC 3714656. PMID  27879895 . 
  36. ^ Ma, Y.; Guo, Y.; Tian, ​​X.; Ghanem, M. (2011). «Распределенный алгоритм агрегации на основе кластеризации для пространственно-коррелированных сенсорных сетей». IEEE Sensors Journal . 11 (3): 641. Bibcode : 2011ISenJ..11..641M. CiteSeerX 10.1.1.724.1158 . doi : 10.1109/JSEN.2010.2056916. S2CID  1639100. 
  37. ^ Чжао, Кайди; и Лю, Бин; Тирпарк, Томас М.; и Вэйминь, Сяо; Визуальная структура интеллектуального анализа данных для удобного определения полезных знаний
  38. ^ Кейм, Дэниел А.; Визуализация информации и визуальный анализ данных
  39. ^ Берч, Михаэль; Диль, Стефан; Вайсгербер, Питер; Визуальный анализ данных в архивах программного обеспечения
  40. ^ Паше, Франсуа; Вестерманн, Герт; и Легр, Дамьен; Музыкальный интеллектуальный анализ данных для распространения электронной музыки. Архивировано 27 марта 2014 г. в Wayback Machine , Труды 1-й конференции WedelMusic, Флоренция, Италия, 2001 г., стр. 101–106.
  41. ^ Счетная палата США, Анализ данных: Раннее внимание к конфиденциальности при разработке ключевой программы DHS может снизить риски , GAO-07-293 (февраль 2007 г.), Вашингтон, округ Колумбия.
  42. ^ Отчет о программе обеспечения безопасности полетов, NBC News
  43. ^ "Total/Terrorism Information Awareness (TIA): Is It True Dead?". Electronic Frontier Foundation (официальный сайт) . 2003. Архивировано из оригинала 2009-03-25 . Получено 2009-03-15 .
  44. ^ Агравал, Ракеш; Маннила, Хейкки; Шрикант, Рамакришнан; Тойвонен, Ханну; и Веркамо, А. Инкери; Быстрое открытие правил ассоциации , в «Достижениях в области обнаружения знаний и интеллектуального анализа данных» , MIT Press, 1996, стр. 307–328.
  45. ^ ab Национальный исследовательский совет, Защита личной конфиденциальности в борьбе с терроризмом: структура оценки программ , Вашингтон, округ Колумбия: National Academies Press, 2008
  46. ^ Хааг, Стивен; Каммингс, Мейв; Филлипс, Эми (2006). Системы управленческой информации для информационного века. Торонто: McGraw-Hill Ryerson. стр. 28. ISBN 978-0-07-095569-1. OCLC  63194770.
  47. ^ Ганем, Мустафа; Го, Йике; Роу, Энтони; Вендель, Патрик (2002). "Службы обнаружения знаний на основе сетки для высокопроизводительной информатики". Труды 11-го Международного симпозиума IEEE по высокопроизводительным распределенным вычислениям . стр. 416. doi :10.1109/HPDC.2002.1029946. ISBN 978-0-7695-1686-8. S2CID  28782519.
  48. ^ Ганем, Мустафа; Курчин, Васа; Вендель, Патрик; Го, Йике (2009). «Создание и использование аналитических рабочих процессов в Discovery Net». Методы интеллектуального анализа данных в средах сетевых вычислений . стр. 119. doi :10.1002/9780470699904.ch8. ISBN 9780470699904.
  49. ^ Каннатаро, Марио; Талия, Доменико (январь 2003 г.). «Сетка знаний: архитектура для распределенного обнаружения знаний» (PDF) . Сообщения ACM . 46 (1): 89– 93. doi :10.1145/602421.602425. S2CID  8709194. Архивировано из оригинала (PDF) 2011-11-10 . Получено 17 октября 2011 г.
  50. ^ Талия, Доменико; Трунфио, Паоло (июль 2010 г.). «Как распределенные задачи добычи данных могут процветать как службы знаний» (PDF) . Сообщения ACM . 53 (7): 132– 137. CiteSeerX 10.1.1.378.2206 . doi :10.1145/1785414.1785451. S2CID  14713292. Архивировано из оригинала (PDF) 27.10.2011 . Получено 17 октября 2011 г. 
Взято с "https://en.wikipedia.org/w/index.php?title=Примеры_добычи_данных&oldid=1268677611"