Анализ данных для обнаружения мошенничества

Методы анализа данных для обнаружения мошенничества

Мошенничество представляет собой значительную проблему для правительств и предприятий, и для обнаружения мошенничества с их помощью требуются специализированные методы анализа. Некоторые из этих методов включают обнаружение знаний в базах данных (KDD), интеллектуальный анализ данных , машинное обучение и статистику . Они предлагают применимые и успешные решения в различных областях электронных мошеннических преступлений. [1]

В целом, основной причиной использования методов анализа данных является борьба с мошенничеством, поскольку многие системы внутреннего контроля имеют серьезные недостатки. Например, в настоящее время преобладающий подход, используемый многими правоохранительными органами для обнаружения компаний, вовлеченных в потенциальные случаи мошенничества, заключается в получении косвенных доказательств или жалоб от осведомителей. [2] В результате большое количество случаев мошенничества остаются необнаруженными и не преследуются по закону. Для эффективного тестирования, обнаружения, проверки, исправления ошибок и мониторинга систем контроля на предмет мошеннических действий коммерческие субъекты и организации полагаются на специализированные методы анализа данных, такие как интеллектуальный анализ данных, сопоставление данных, функция «звуки как» , регрессионный анализ, кластерный анализ и анализ пробелов. [3] Методы, используемые для обнаружения мошенничества, делятся на два основных класса: статистические методы и искусственный интеллект . [4]

Статистические методы

Карта обвинений в мошенничестве с инвалидностью в Соединенных Штатах по штатам

Примерами методов статистического анализа данных являются:

  • Методы предварительной обработки данных для обнаружения, проверки, исправления ошибок и заполнения отсутствующих или неверных данных.
  • Расчет различных статистических параметров, таких как средние значения , квантили , показатели производительности, распределения вероятностей и т. д. Например, средние значения могут включать среднюю продолжительность звонка, среднее количество звонков в месяц и средние задержки в оплате счетов.
  • Модели и распределения вероятностей различных видов деловой активности либо в терминах различных параметров, либо в терминах распределений вероятностей.
  • Вычисление профилей пользователей .
  • Анализ временных рядов данных, зависящих от времени. [5]
  • Кластеризация и классификация для поиска закономерностей и ассоциаций среди групп данных. [5]
  • Сопоставление данных Сопоставление данных используется для сравнения двух наборов собранных данных. Процесс может быть выполнен на основе алгоритмов или запрограммированных циклов. Попытка сопоставить наборы данных друг с другом или сравнение сложных типов данных. Сопоставление данных используется для удаления дубликатов записей и определения связей между двумя наборами данных для маркетинга, безопасности или других целей. [3]
  • Функция Sounds like используется для поиска значений, которые звучат похоже. Фонетическое сходство — один из способов обнаружения возможных дублирующих значений или несогласованного написания в вручную введенных данных. Функция «sounds like» преобразует строки сравнения в четырехсимвольные американские коды Soundex, которые основаны на первой букве и первых трех согласных после первой буквы в каждой строке. [3]
  • Регрессионный анализ позволяет вам исследовать взаимосвязь между двумя или более интересующими вас переменными. Регрессионный анализ оценивает взаимосвязи между независимыми переменными и зависимой переменной. Этот метод может быть использован для понимания и выявления взаимосвязей между переменными и прогнозирования фактических результатов. [3]
  • Анализ пробелов используется для определения того, выполняются ли бизнес-требования. Если нет, то какие шаги следует предпринять для успешного выполнения.
  • Алгоритмы сопоставления для обнаружения аномалий в поведении транзакций или пользователей по сравнению с ранее известными моделями и профилями. Также необходимы методы для устранения ложных тревог , оценки рисков и прогнозирования будущего текущих транзакций или пользователей.

Некоторые судебные бухгалтеры специализируются на судебной аналитике , которая представляет собой сбор и анализ электронных данных для реконструкции, обнаружения или иного обоснования заявления о финансовом мошенничестве. Основными этапами судебной аналитики являются сбор данных , подготовка данных , анализ данных и составление отчетов. Например, судебная аналитика может использоваться для проверки активности карточек покупок сотрудника , чтобы оценить, были ли какие-либо покупки перенаправлены или могли быть перенаправлены для личного использования.

Искусственный интеллект

Обнаружение мошенничества — это наукоемкая деятельность. Основные методы ИИ, используемые для обнаружения мошенничества, включают:

  • Интеллектуальный анализ данных для классификации, кластеризации и сегментации данных, а также автоматического поиска ассоциаций и правил в данных, которые могут указывать на интересные закономерности, в том числе связанные с мошенничеством.
  • Экспертные системы для кодирования экспертных знаний по обнаружению мошенничества в форме правил.
  • Распознавание образов для обнаружения приблизительных классов, кластеров или моделей подозрительного поведения либо автоматически (без контроля), либо в соответствии с заданными входными данными.
  • Методы машинного обучения для автоматического определения признаков мошенничества.
  • Нейронные сети могут независимо генерировать классификацию, кластеризацию, обобщение и прогнозирование, которые затем можно сравнивать с выводами, полученными в ходе внутренних аудитов или официальных финансовых документов, таких как 10-Q . [5]

Другие методы, такие как анализ связей , байесовские сети , теория принятия решений и сопоставление последовательностей , также используются для обнаружения мошенничества. [4] Новый и оригинальный метод, называемый подходом системных свойств, также использовался везде, где доступны данные о рангах. [6]

Статистический анализ исследовательских данных является наиболее полным методом определения наличия мошенничества с данными. Мошенничество с данными, как определено Управлением по добросовестности исследований (ORI), включает в себя фабрикацию, фальсификацию и плагиат.

Машинное обучение и интеллектуальный анализ данных

Гистограмма мошенничества

Ранние методы анализа данных были ориентированы на извлечение количественных и статистических характеристик данных. Эти методы облегчают полезную интерпретацию данных и могут помочь лучше понять процессы, лежащие в основе данных. Хотя традиционные методы анализа данных могут косвенно привести нас к знаниям, они по-прежнему создаются аналитиками-людьми. [7]

Чтобы выйти за рамки, система анализа данных должна быть оснащена значительным объемом фоновых знаний и быть способной выполнять задачи рассуждения, включающие эти знания и предоставленные данные. [7] В попытке достичь этой цели исследователи обратились к идеям из области машинного обучения. Это естественный источник идей, поскольку задачу машинного обучения можно описать как превращение фоновых знаний и примеров (входных данных) в знания (выходные данные).

Если добыча данных приводит к обнаружению значимых закономерностей, данные превращаются в информацию. Информация или закономерности, которые являются новыми, действительными и потенциально полезными, являются не просто информацией, а знаниями. Говорят об обнаружении знаний, которые раньше были скрыты в огромном количестве данных, но теперь раскрыты.

Решения машинного обучения и искусственного интеллекта можно разделить на две категории: «контролируемое» и «неконтролируемое» обучение. Эти методы ищут счета, клиентов, поставщиков и т. д., которые ведут себя «необычно», чтобы вывести оценки подозрений, правила или визуальные аномалии, в зависимости от метода. [8]

Независимо от того, используются ли контролируемые или неконтролируемые методы, обратите внимание, что вывод дает нам только указание на вероятность мошенничества. Ни один отдельный статистический анализ не может гарантировать, что конкретный объект является мошенническим, но он может идентифицировать их с очень высокой степенью точности. В результате эффективное сотрудничество между моделью машинного обучения и аналитиками-людьми имеет жизненно важное значение для успеха приложений по обнаружению мошенничества. [9]

Контролируемое обучение

Обучение случайного леса для обнаружения мошенничества

При контролируемом обучении берется случайная подвыборка всех записей и вручную классифицируется как «мошенническая» или «не мошенническая» (задача может быть разложена на большее количество классов для соответствия требованиям алгоритма). Относительно редкие события, такие как мошенничество, могут потребовать дополнительной выборки, чтобы получить достаточно большой размер выборки. [10] Эти вручную классифицированные записи затем используются для обучения контролируемого алгоритма машинного обучения. После построения модели с использованием этих обучающих данных алгоритм должен иметь возможность классифицировать новые записи как мошеннические или не мошеннические.

Контролируемые нейронные сети, нечеткие нейронные сети и комбинации нейронных сетей и правил были широко исследованы и использованы для обнаружения мошенничества в сетях мобильной связи и мошенничества с финансовой отчетностью. [11] [12]

Байесовская обучающаяся нейронная сеть применяется для обнаружения мошенничества с кредитными картами, телекоммуникационного мошенничества, мошенничества с автострахованием и мошенничества с медицинским страхованием. [13]

Гибридные системы на основе знаний/статистики, в которых экспертные знания интегрированы со статистической мощью, используют ряд методов добычи данных с целью обнаружения мошенничества с использованием клеточных клонов. В частности, реализована программа обучения правилам для выявления индикаторов мошеннического поведения из большой базы данных клиентских транзакций. [14]

Кахилл и др. (2000) разрабатывают сигнатуру мошенничества на основе данных о мошеннических звонках для обнаружения мошенничества в сфере телекоммуникаций. Для оценки звонка на предмет мошенничества его вероятность по подписи учетной записи сравнивается с его вероятностью по подписи мошенничества. Сигнатура мошенничества обновляется последовательно, что позволяет обнаруживать мошенничество на основе событий.

Анализ связей охватывает другой подход. Он связывает известных мошенников с другими лицами, используя методы связи записей и социальных сетей. [15] [16]

Этот тип обнаружения способен обнаружить только мошенничество, похожее на то, которое уже произошло и было классифицировано человеком. Для обнаружения нового типа мошенничества может потребоваться использование неконтролируемого алгоритма машинного обучения.

Неконтролируемое обучение

Напротив, неконтролируемые методы не используют маркированные записи.

Bolton и Hand используют Peer Group Analysis и Break Point Analysis, применяемые к поведению расходов на счетах кредитных карт. [17] Peer Group Analysis обнаруживает отдельные объекты, которые начинают вести себя иначе, чем объекты, на которые они ранее были похожи. Еще один инструмент, разработанный Bolton и Hand для обнаружения поведенческого мошенничества, — Break Point Analysis. [17] В отличие от Peer Group Analysis, Break Point Analysis работает на уровне счета. Break Point — это наблюдение, при котором обнаруживается аномальное поведение для определенного счета. Оба инструмента применяются к поведению расходов на счетах кредитных карт.

Сочетание неконтролируемых и контролируемых методов обнаружения мошенничества с кредитными картами описано в работе Карсилло и др. (2019). [18]

Геолокация

Интернет-магазины и платежные системы используют геолокацию для обнаружения возможного мошенничества с кредитными картами , сравнивая местоположение пользователя с адресом выставления счета в учетной записи или предоставленным адресом доставки. Несоответствие — например, заказ, размещенный из США на номер счета из Токио — является сильным индикатором потенциального мошенничества. Геолокация IP-адреса также может использоваться для обнаружения мошенничества для сопоставления почтового индекса адреса выставления счета или кода города. [19] Банки могут предотвращать « фишинговые » атаки, отмывание денег и другие нарушения безопасности, определяя местоположение пользователя в рамках процесса аутентификации. Базы данных Whois также могут помочь проверить IP-адреса и регистрантов. [20]

Правительственные органы, правоохранительные органы и службы корпоративной безопасности используют геолокацию в качестве инструмента расследования, отслеживая интернет-маршруты интернет-злоумышленников, чтобы найти преступников и предотвратить будущие атаки из того же места.

Доступные наборы данных

Основным ограничением для проверки существующих методов обнаружения мошенничества является отсутствие общедоступных наборов данных. [21] Одним из немногих примеров является набор данных обнаружения мошенничества с кредитными картами [22], предоставленный Группой машинного обучения ULB. [23]

Смотрите также

Ссылки

  1. ^ Чуприна, Роман (13 апреля 2020 г.). «Подробное руководство 2020 года по обнаружению мошенничества в электронной коммерции». www.datasciencecentral.com . Получено 24.05.2020 .
  2. ^ Веласко, Рафаэль Б.; Карпанезе, Игорь; Интериан, Рубен; Пауло Нето, Октавио CG; Рибейро, Селсу К. (28 мая 2020 г.). «Система поддержки принятия решений по выявлению мошенничества в сфере государственных закупок». Международные сделки в области операционных исследований . 28 : 27–47 . doi : 10.1111/itor.12811 . ISSN  0969-6016.
  3. ^ abcd Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор. Статистическая наука 17 (3), стр. 235-255
  4. ^ ab GK Palshikar, Скрытая правда – Мошенничество и его контроль: Критическое применение для бизнес-аналитики, Intelligent Enterprise, т. 5, № 9, 28 мая 2002 г., стр. 46–51.
  5. ^ abc Al-Khatib, Adnan M. (2012). «Методы обнаружения мошенничества с электронными платежами». Журнал World of Computer Science and Information Technology . 2. S2CID  214778396.
  6. ^ Вани, ГК (февраль 2018 г.). «Как обнаружить мошенничество при сборе данных с использованием подхода системных свойств». Multilogic in Science . VII (СПЕЦИАЛЬНЫЙ ВЫПУСК ICAAASTSD-2018). ISSN  2277-7601 . Получено 2 февраля 2019 г.
  7. ^ ab Михальски, RS, И. Братко и М. Кубат (1998). Машинное обучение и интеллектуальный анализ данных – методы и приложения. John Wiley & Sons Ltd.
  8. ^ Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор (с обсуждением). Статистическая наука 17(3): 235–255.
  9. ^ Tax, N. & de Vries, KJ & de Jong, M. & Dosoula, N. & van den Akker, B. & Smith, J. & Thuong, O. & Bernardi, L. Машинное обучение для обнаружения мошенничества в электронной коммерции: исследовательская программа. Труды международного семинара KDD по развертываемому машинному обучению для защиты безопасности (ML hat). Springer, Cham, 2021.
  10. ^ Dal Pozzolo, A. & Caelen, O. & Le Borgne, Y. & Waterschoot, S. & Bontempi, G. (2014). Извлеченные уроки по обнаружению мошенничества с кредитными картами с точки зрения практика. Экспертные системы с приложениями 41: 10 4915–4928.
  11. ^ Грин, Б. и Чой, Дж. (1997). Оценка риска мошенничества в управлении с помощью технологии нейронных сетей. Аудит 16(1): 14–28.
  12. ^ Эстевес, П., К. Хелд и К. Перес (2006). Предотвращение мошенничества с подписками в телекоммуникациях с использованием нечетких правил и нейронных сетей. Экспертные системы с приложениями 31, 337–344.
  13. ^ Бхоумик, Рекха Бхоумик. «35 методов интеллектуального анализа данных при обнаружении мошенничества». Журнал цифровой криминалистики, безопасности и права . Техасский университет в Далласе.
  14. ^ Фосетт, Т. (1997). Подходы ИИ к обнаружению мошенничества и управлению рисками: доклады семинара AAAI 1997 года. Технический отчет WS-97-07. AAAI Press.
  15. ^ Фуа, К.; Ли, В.; Смит-Майлз, К.; Гейлер, Р. (2005). «Комплексное исследование исследований обнаружения мошенничества на основе интеллектуального анализа данных». arXiv : 1009.6119 . doi :10.1016/j.chb.2012.01.002. S2CID  50458504. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  16. ^ Кортес, К. и Прегибон, Д. (2001). Методы на основе сигнатур для потоков данных. Data Mining and Knowledge Discovery 5: 167–182.
  17. ^ ab Bolton, R. & Hand, D. (2001). Неконтролируемые методы профилирования для обнаружения мошенничества. Кредитный скоринг и кредитный контроль VII.
  18. ^ Карчилло, Фабрицио; Ле Борнь, Янн-Аэль; Кэлен, Оливье; Кессачи, Ясин; Обле, Фредерик; Бонтемпи, Джанлука (16 мая 2019 г.). «Сочетание неконтролируемого и контролируемого обучения в области обнаружения мошенничества с кредитными картами». Информационные науки . 557 : 317–331 . doi :10.1016/j.ins.2019.05.042. ISSN  0020-0255. S2CID  181839660.
  19. ^ Вакка, Джон Р. (2003). Кража личных данных . Prentice Hall Professional . стр. 400. ISBN 9780130082756.
  20. ^ Барба, Роберт (2017-11-18). «Обмен вашим местоположением с вашим банком кажется жутким, но это полезно». The Morning Call . Архивировано из оригинала 2018-01-11 . Получено 2018-01-10 .
  21. ^ Le Borgne, Yann-Aël; Bontempi, Gianluca (2021). «Машинное обучение для обнаружения мошенничества с кредитными картами — практическое руководство» . Получено 26 апреля 2021 г.
  22. ^ «Обнаружение мошенничества с кредитными картами». kaggle.com .
  23. ^ "Группа машинного обучения ULB". mlg.ulb.ac.be .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Data_analysis_for_fraud_detection&oldid=1255253769"