This article is written like a personal reflection, personal essay, or argumentative essay that states a Wikipedia editor's personal feelings or presents an original argument about a topic. (April 2010) |
Мошенничество представляет собой значительную проблему для правительств и предприятий, и для обнаружения мошенничества с их помощью требуются специализированные методы анализа. Некоторые из этих методов включают обнаружение знаний в базах данных (KDD), интеллектуальный анализ данных , машинное обучение и статистику . Они предлагают применимые и успешные решения в различных областях электронных мошеннических преступлений. [1]
В целом, основной причиной использования методов анализа данных является борьба с мошенничеством, поскольку многие системы внутреннего контроля имеют серьезные недостатки. Например, в настоящее время преобладающий подход, используемый многими правоохранительными органами для обнаружения компаний, вовлеченных в потенциальные случаи мошенничества, заключается в получении косвенных доказательств или жалоб от осведомителей. [2] В результате большое количество случаев мошенничества остаются необнаруженными и не преследуются по закону. Для эффективного тестирования, обнаружения, проверки, исправления ошибок и мониторинга систем контроля на предмет мошеннических действий коммерческие субъекты и организации полагаются на специализированные методы анализа данных, такие как интеллектуальный анализ данных, сопоставление данных, функция «звуки как» , регрессионный анализ, кластерный анализ и анализ пробелов. [3] Методы, используемые для обнаружения мошенничества, делятся на два основных класса: статистические методы и искусственный интеллект . [4]
Примерами методов статистического анализа данных являются:
Некоторые судебные бухгалтеры специализируются на судебной аналитике , которая представляет собой сбор и анализ электронных данных для реконструкции, обнаружения или иного обоснования заявления о финансовом мошенничестве. Основными этапами судебной аналитики являются сбор данных , подготовка данных , анализ данных и составление отчетов. Например, судебная аналитика может использоваться для проверки активности карточек покупок сотрудника , чтобы оценить, были ли какие-либо покупки перенаправлены или могли быть перенаправлены для личного использования.
Обнаружение мошенничества — это наукоемкая деятельность. Основные методы ИИ, используемые для обнаружения мошенничества, включают:
Другие методы, такие как анализ связей , байесовские сети , теория принятия решений и сопоставление последовательностей , также используются для обнаружения мошенничества. [4] Новый и оригинальный метод, называемый подходом системных свойств, также использовался везде, где доступны данные о рангах. [6]
Статистический анализ исследовательских данных является наиболее полным методом определения наличия мошенничества с данными. Мошенничество с данными, как определено Управлением по добросовестности исследований (ORI), включает в себя фабрикацию, фальсификацию и плагиат.
Ранние методы анализа данных были ориентированы на извлечение количественных и статистических характеристик данных. Эти методы облегчают полезную интерпретацию данных и могут помочь лучше понять процессы, лежащие в основе данных. Хотя традиционные методы анализа данных могут косвенно привести нас к знаниям, они по-прежнему создаются аналитиками-людьми. [7]
Чтобы выйти за рамки, система анализа данных должна быть оснащена значительным объемом фоновых знаний и быть способной выполнять задачи рассуждения, включающие эти знания и предоставленные данные. [7] В попытке достичь этой цели исследователи обратились к идеям из области машинного обучения. Это естественный источник идей, поскольку задачу машинного обучения можно описать как превращение фоновых знаний и примеров (входных данных) в знания (выходные данные).
Если добыча данных приводит к обнаружению значимых закономерностей, данные превращаются в информацию. Информация или закономерности, которые являются новыми, действительными и потенциально полезными, являются не просто информацией, а знаниями. Говорят об обнаружении знаний, которые раньше были скрыты в огромном количестве данных, но теперь раскрыты.
Решения машинного обучения и искусственного интеллекта можно разделить на две категории: «контролируемое» и «неконтролируемое» обучение. Эти методы ищут счета, клиентов, поставщиков и т. д., которые ведут себя «необычно», чтобы вывести оценки подозрений, правила или визуальные аномалии, в зависимости от метода. [8]
Независимо от того, используются ли контролируемые или неконтролируемые методы, обратите внимание, что вывод дает нам только указание на вероятность мошенничества. Ни один отдельный статистический анализ не может гарантировать, что конкретный объект является мошенническим, но он может идентифицировать их с очень высокой степенью точности. В результате эффективное сотрудничество между моделью машинного обучения и аналитиками-людьми имеет жизненно важное значение для успеха приложений по обнаружению мошенничества. [9]
При контролируемом обучении берется случайная подвыборка всех записей и вручную классифицируется как «мошенническая» или «не мошенническая» (задача может быть разложена на большее количество классов для соответствия требованиям алгоритма). Относительно редкие события, такие как мошенничество, могут потребовать дополнительной выборки, чтобы получить достаточно большой размер выборки. [10] Эти вручную классифицированные записи затем используются для обучения контролируемого алгоритма машинного обучения. После построения модели с использованием этих обучающих данных алгоритм должен иметь возможность классифицировать новые записи как мошеннические или не мошеннические.
Контролируемые нейронные сети, нечеткие нейронные сети и комбинации нейронных сетей и правил были широко исследованы и использованы для обнаружения мошенничества в сетях мобильной связи и мошенничества с финансовой отчетностью. [11] [12]
Байесовская обучающаяся нейронная сеть применяется для обнаружения мошенничества с кредитными картами, телекоммуникационного мошенничества, мошенничества с автострахованием и мошенничества с медицинским страхованием. [13]
Гибридные системы на основе знаний/статистики, в которых экспертные знания интегрированы со статистической мощью, используют ряд методов добычи данных с целью обнаружения мошенничества с использованием клеточных клонов. В частности, реализована программа обучения правилам для выявления индикаторов мошеннического поведения из большой базы данных клиентских транзакций. [14]
Кахилл и др. (2000) разрабатывают сигнатуру мошенничества на основе данных о мошеннических звонках для обнаружения мошенничества в сфере телекоммуникаций. Для оценки звонка на предмет мошенничества его вероятность по подписи учетной записи сравнивается с его вероятностью по подписи мошенничества. Сигнатура мошенничества обновляется последовательно, что позволяет обнаруживать мошенничество на основе событий.
Анализ связей охватывает другой подход. Он связывает известных мошенников с другими лицами, используя методы связи записей и социальных сетей. [15] [16]
Этот тип обнаружения способен обнаружить только мошенничество, похожее на то, которое уже произошло и было классифицировано человеком. Для обнаружения нового типа мошенничества может потребоваться использование неконтролируемого алгоритма машинного обучения.
Напротив, неконтролируемые методы не используют маркированные записи.
Bolton и Hand используют Peer Group Analysis и Break Point Analysis, применяемые к поведению расходов на счетах кредитных карт. [17] Peer Group Analysis обнаруживает отдельные объекты, которые начинают вести себя иначе, чем объекты, на которые они ранее были похожи. Еще один инструмент, разработанный Bolton и Hand для обнаружения поведенческого мошенничества, — Break Point Analysis. [17] В отличие от Peer Group Analysis, Break Point Analysis работает на уровне счета. Break Point — это наблюдение, при котором обнаруживается аномальное поведение для определенного счета. Оба инструмента применяются к поведению расходов на счетах кредитных карт.
Сочетание неконтролируемых и контролируемых методов обнаружения мошенничества с кредитными картами описано в работе Карсилло и др. (2019). [18]
Интернет-магазины и платежные системы используют геолокацию для обнаружения возможного мошенничества с кредитными картами , сравнивая местоположение пользователя с адресом выставления счета в учетной записи или предоставленным адресом доставки. Несоответствие — например, заказ, размещенный из США на номер счета из Токио — является сильным индикатором потенциального мошенничества. Геолокация IP-адреса также может использоваться для обнаружения мошенничества для сопоставления почтового индекса адреса выставления счета или кода города. [19] Банки могут предотвращать « фишинговые » атаки, отмывание денег и другие нарушения безопасности, определяя местоположение пользователя в рамках процесса аутентификации. Базы данных Whois также могут помочь проверить IP-адреса и регистрантов. [20]
Правительственные органы, правоохранительные органы и службы корпоративной безопасности используют геолокацию в качестве инструмента расследования, отслеживая интернет-маршруты интернет-злоумышленников, чтобы найти преступников и предотвратить будущие атаки из того же места.Основным ограничением для проверки существующих методов обнаружения мошенничества является отсутствие общедоступных наборов данных. [21] Одним из немногих примеров является набор данных обнаружения мошенничества с кредитными картами [22], предоставленный Группой машинного обучения ULB. [23]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )