Hancock — это язык программирования на основе C , впервые разработанный исследователями из AT&T Labs в 1998 году для анализа потоков данных . [1] Язык был задуман его создателями для повышения эффективности и масштабирования добычи данных. Hancock работает путем создания профилей людей, используя данные для предоставления информации о поведении и социальных сетях.
Разработка Hancock была частью использования телекоммуникационной отраслью процессов добычи данных для обнаружения мошенничества и улучшения маркетинга. Однако после атак 11 сентября 2001 года и усиления правительственного надзора за отдельными лицами, Hancock и аналогичные технологии добычи данных попали под пристальное внимание общественности, особенно в связи с предполагаемой угрозой конфиденциальности личности. [2]
Исследования по добыче данных, включая Hancock, росли в 1990-х годах, поскольку научный, деловой и медицинский интерес к массовому сбору, хранению и управлению данными возрос. [3] В начале 1990-х годов транзакционные предприятия стали все больше интересоваться хранилищами данных, которые обеспечивали возможности хранения, запроса и управления для всех записанных транзакционных данных. Исследования по добыче данных с фокусом на базах данных стали фокусироваться на создании эффективных структур данных и алгоритмов, особенно для данных, которые находились вне основной памяти, например, на диске. Падхарик Смит считал, что исследователи по добыче данных стремились писать алгоритмы, которые могли бы масштабировать огромные объемы данных за более короткое время. [3]
Исследователи из AT&T Labs , включая Коринну Кортес , были пионерами языка программирования Hancock с 1998 по 2004 год. Hancock, основанный на языке C язык программирования, ориентированный на определенную область применения, был призван сделать программный код для вычисления подписей из больших потоков транзакционных данных более простым для чтения и поддержки, тем самым выступая улучшением по сравнению со сложными программами интеллектуального анализа данных , написанными на языке C. Hancock также решал проблемы масштабирования программ интеллектуального анализа данных. [1]
Потоки данных, которые анализировала программа Hancock, предназначались для ежедневной обработки сотен миллионов подписей, что идеально подходило для таких транзакций, как телефонные звонки, покупки по кредитным картам или запросы на веб-сайты. [1] Во время разработки Hancock эти данные обычно собирались для выставления счетов или в целях безопасности, а также все чаще для анализа поведения транзакций. [1] Интеллектуальный анализ данных также может быть полезен для выявления нетипичных закономерностей в данных транзакций. Что касается антитеррористической деятельности, помощь интеллектуального анализа данных в поиске закономерностей может помочь найти связи между подозреваемыми в терроризме, например, через финансирование или поставки оружия. [4]
Приложения потока данных также включают сетевой мониторинг, финансовый мониторинг, такой как покупки по кредитным картам, [5] мониторинг эффекта рецептурных препаратов, [5] и электронную коммерцию . [6] Интеллектуальный анализ данных может использоваться фирмами для поиска наиболее прибыльных потребителей или для проведения анализа оттока . Интеллектуальный анализ данных также может помочь фирмам принимать решения о кредитовании путем разработки моделей, которые определяют кредитоспособность клиента. [7] Эти модели предназначены для минимизации рискованного кредитования при максимизации доходов от продаж. [7]
Помимо Hancock, к 2003 году существовали и другие системы потоков данных: Aurora, Gigascope, Niagara, STREAM, Tangram, Tapestry, Telegraph и Tribeca. [6]
Hancock — это язык для программ анализа потоков данных . Потоки данных отличаются от традиционных хранимых баз данных тем, что они имеют дело с очень большими объемами данных и позволяют аналитикам работать с такими данными практически в реальном времени. С другой стороны, хранимые базы данных предполагают ввод данных для офлайн-запросов. [6] Хранилища данных , которые хранят перекрестные данные из разных систем, могут быть дорогими в создании и длительными в реализации. Создание упрощенных хранилищ данных может занять месяцы. [5]
Масштаб добычи массивных потоков данных создает проблемы для майнеров данных. Например, добыча данных в интернет- и телефонных сетях может быть направлена на поиск постоянных элементов, которые регулярно встречаются в потоке. [8] Однако эти элементы могут быть зарыты в большом количестве транзакционных данных сети; хотя элементы в конечном итоге могут быть найдены, майнеры данных стремятся повысить эффективность времени поиска. [8]
В технологии баз данных пользователи не обязательно знают, где находятся данные, которые они ищут. Этим пользователям нужно только выдавать запросы на данные, которые возвращает система управления базами данных. В большом наборе данных данные могут содержаться в оперативной памяти (ОЗУ), которая является первичным хранилищем, или в дисковом хранилище, которое является вторичным хранилищем. В 2000 году Падхарик Смит подсчитал, что с использованием новейшей технологии доступ к данным, расположенным в ОЗУ, может быть получен относительно быстро, «порядка 10 −7 -10 −8 секунд», в то время как доступ к данным вторичного хранилища занимает значительно больше времени, «порядка 10 4 -10 5 » секунд. [3]
Интеллектуальный анализ данных можно разбить на процессы ввода, анализа и предоставления результатов; он использует алгоритмы для поиска закономерностей и взаимосвязей между субъектами и использовался коммерческими компаниями для поиска закономерностей в поведении клиентов. [9] Аналитики данных необходимы для сбора и организации данных и обучения алгоритмов. [4]
KianSing Ng и Huan Liu полагают, что даже при простых целях добычи данных реальный процесс все еще сложен. Например, они утверждают, что добыча данных в реальном мире может быть оспорена колебаниями данных, которые сделают предыдущие модели «частично недействительными». Еще одна сложность заключается в том, что большинство баз данных, существовавших в 2000 году, характеризовались высокой размерностью, что означает, что они содержат данные по многим атрибутам. Как отмечают Ng и Liu, высокая размерность приводит к длительному времени вычислений; это можно решить путем сокращения данных на этапе предварительной обработки. [10]
Процесс Хэнкока выглядит следующим образом:
Поскольку код Hancock работал эффективно даже с большими объемами данных, исследователи AT&T заявили, что он позволил аналитикам создавать приложения, «которые ранее считались невозможными». [1]
Исследователи AT&T Labs проанализировали потоки телекоммуникационных данных, включая весь поток данных о междугородних звонках компании, который включал около 300 миллионов записей со 100 миллионов счетов клиентов ежедневно. [1] К 2004 году все подписи записей о междугородних телефонных звонках AT&T были написаны на Hancock, и компания использовала код Hancock для просмотра девяти гигабайт сетевого трафика каждую ночь. [1] [2]
Телекоммуникационные компании обмениваются информацией, полученной в результате анализа сетевого трафика, в целях исследования, безопасности и регулирования. [14]
Программы Hancock помогали в маркетинговых усилиях AT&T. [2] В 1990-х годах добыча больших потоков данных и возросшая автоматизация государственных систем публичных записей позволили коммерческим корпорациям в Соединенных Штатах персонализировать маркетинг. [15] Профили подписей были разработаны как на основе записей транзакций, так и из источников публичных записей. [15] Например, Нг и Лю применили добычу данных для анализа удержания клиентов и обнаружили, что добыча правил ассоциации позволяет фирме предсказывать уход влиятельных клиентов и их партнеров. Они утверждали, что такие знания впоследствии позволяют маркетинговой команде компании нацеливаться на этих клиентов, предлагая более привлекательные предложения. [10]
Интеллектуальный анализ данных помог телекоммуникационным компаниям в вирусном маркетинге , также известном как маркетинг сарафанного радио или маркетинг «из уст в уста», который использует социальные сети потребителей для повышения узнаваемости бренда и прибыли. [16] Вирусный маркетинг зависит от связей между потребителями для повышения пропаганды бренда, которая может быть либо явной, например, когда друзья рекомендуют продукт другим друзьям, либо неявной, например, когда влиятельные потребители покупают продукт. [16] Для фирм одной из целей вирусного маркетинга является поиск влиятельных потребителей, которые имеют более крупные сети. Другой метод вирусного маркетинга — нацеливание на соседей предыдущих потребителей, известное как «сетевое нацеливание». [16] Используя программы Hancock, аналитики AT&T смогли найти «сообщества по интересам» или взаимосвязанных пользователей, которые демонстрировали схожие поведенческие черты. [12]
Одной из проблем, с которой столкнулись промоутеры вирусного маркетинга, был большой размер наборов маркетинговых данных, которые в случае телекоммуникационных компаний могут включать информацию о транзакциях и их описательных атрибутах и транзакциях. [16] Наборы маркетинговых данных, когда их количество составляет сотни миллионов, могут превышать объем памяти программного обеспечения для статистического анализа. [16] Программы Hancock решали проблемы масштабирования данных и позволяли аналитикам принимать решения по мере поступления данных в хранилища данных. [2]
Хотя развитие беспроводных коммуникационных устройств позволило правоохранительным органам отслеживать местоположение пользователей, оно также позволило компаниям улучшить потребительский маркетинг, например, отправляя сообщения в зависимости от близости беспроводного пользователя к определенным предприятиям. [15] Используя данные о местоположении сотовых станций, программы Hancock могли отслеживать перемещения беспроводных пользователей. [2]
По словам академика Алана Вестина , рост телемаркетинга в этот период также увеличил раздражение потребителей. [15] Статистики Мюррей Маккиннон и Нед Глик в 1999 году выдвинули гипотезу, что компании скрывают использование коммерческого интеллектуального анализа данных из-за потенциальной негативной реакции потребителей на интеллектуальный анализ клиентских записей. [5] В качестве примера Маккиннон и Глик привели судебный процесс в июне 1999 года, в котором штат Миннесота подал в суд на US Bancorp за раскрытие информации о клиентах телемаркетинговой фирме; Bancorp оперативно отреагировала на иск, ограничив использование клиентских данных. [5]
Исследователи AT&T, включая Кортеса , показали, что программы интеллектуального анализа данных, связанные с Hancock, могут использоваться для обнаружения мошенничества в сфере телекоммуникаций. [14]
Обнаружение мошенничества в сфере телекоммуникаций включает мошенничество с подписками, несанкционированное использование телефонных карт и мошенничество с АТС . [17] Это похоже на мошенничество с мобильной связью и кредитными картами: во всех трех случаях компании должны обрабатывать большие объемы данных, чтобы получить информацию; они должны иметь дело с непредсказуемостью человеческого поведения, что затрудняет поиск закономерностей в данных; и их алгоритмы должны быть обучены выявлять относительно редкие случаи мошенничества среди множества законных транзакций. [17] По данным Даскалаки и др. , в 1998 году мошенничество в сфере телекоммуникаций принесло миллиарды долларов ежегодных убытков во всем мире. [17]
Поскольку случаев мошенничества было относительно немного по сравнению с сотнями миллионов ежедневных телефонных транзакций, алгоритмы для интеллектуального анализа данных из записей телекоммуникаций должны предоставлять результаты быстро и эффективно. [12] Исследователи показали, что сообщества по интересам могут идентифицировать мошенников, поскольку узлы данных из мошеннических аккаунтов обычно расположены ближе друг к другу, чем к узлу из законного аккаунта. [14]
С помощью анализа социальных сетей и анализа ссылок они также обнаружили, что набор номеров, на которые нацелились мошеннические аккаунты, которые затем были отключены, часто вызывался мошенниками с других номеров; такие соединения могут использоваться для выявления мошеннических аккаунтов. Методы анализа ссылок основаны на предположении, что мошенники редко отклоняются от своих привычек звонков. [12]
В 2007 году журнал Wired опубликовал онлайн-статью, в которой утверждалось, что Hancock был создан исследователями AT&T для «целей наблюдения». В статье освещались исследовательские работы, написанные Кортесом и др. , в частности, исследовательская концепция «сообществ по интересам». Статья связывала концепцию Хэнкока с недавними публичными выводами о том, что Федеральное бюро расследований (ФБР) делало необоснованные запросы на записи «сообществ по интересам» у телекоммуникационных компаний в соответствии с Законом USA PATRIOT . [2]
В статье утверждается, что AT&T «изобрела концепцию и технологию» создания записей «сообщества интересов», ссылаясь на право собственности компании на соответствующие патенты по добыче данных. Наконец, в статье отмечается, что AT&T, наряду с Verizon , в то время была подана в федеральный суд за предоставление Агентству национальной безопасности (АНБ) доступа к миллиардам телефонных записей, принадлежащих американцам. АНБ, как утверждается в статье, получило такие данные с намерением использовать их для добычи данных, чтобы найти подозреваемых террористов и цели для несанкционированного прослушивания телефонных разговоров . [2]
Федеральное наблюдение за телекоммуникациями не является недавним историческим событием в Соединенных Штатах. По словам академика Колина Агура, наблюдение за телефонами со стороны правоохранительных органов в Соединенных Штатах стало более распространенным в 1920-х годах. [18] В частности, прослушивание телефонных разговоров стало распространенной формой сбора доказательств сотрудниками правоохранительных органов, особенно федеральными агентами, во время сухого закона. [18] Агур утверждает, что Закон о коммуникациях 1934 года, который учредил Федеральную комиссию по связи, контролировал злоупотребления правоохранительных органов в отношении наблюдения за телефонами. [18] Согласно этому закону, телекоммуникационные компании могли вести учет и сообщать в Федеральную комиссию по связи о незаконных запросах на перехват телекоммуникаций. После Федерального закона о прослушивании телефонов 1968 года и решения Верховного суда по делу Кац против Соединенных Штатов , оба из которых распространили защиту Четвертой поправки на телефонные коммуникации, для федерального наблюдения за телекоммуникациями требовались ордера. [18]
ФБР впервые было уполномочено получать письма национальной безопасности (NSL) для записей счетов за связь, включая телефонные услуги, после того, как Конгресс принял Закон о конфиденциальности электронных коммуникаций 1986 года . Письма вынуждали телефонные компании предоставлять ФБР информацию о клиентах, такую как имена, адреса и записи междугородних звонков. В конечном итоге Конгресс расширил полномочия NSL, включив в них ордера и для записей местных звонков. [19]
После атак 11 сентября 2001 года Конгресс принял Закон США «Патриот» , который упростил для следователей ФБР получение писем национальной безопасности для расследований терроризма (NSL). Академики Уильям Бендикс и Пол Квирк утверждают, что Закон «Патриот» позволил ФБР получать доступ и собирать личные данные многих граждан без одобрения судьи. ФБР было разрешено хранить коллекцию записей без каких-либо ограничений по времени хранения. Оно также могло заставить получателей NSL хранить молчание с помощью запретительных распоряжений. [19]
В статье Wired утверждалось, что ФБР начало делать необоснованные запросы телекоммуникационным компаниям на получение записей «сообществ по интересам» подозреваемых в соответствии с Законом USA PATRIOT. В статье утверждалось, что правоохранительные органы обнаружили существование таких записей на основе исследований создателей Hancock. [2]
В 2005 году правительственные утечки раскрыли злоупотребление ФБР NSL. В 2006 году, когда был возобновлен Акт PATRIOT, он включал положения, которые требовали от генерального инспектора Министерства юстиции ежегодно проверять использование NSL. Первый отчет генерального инспектора показал, что 140 000 запросов NSL, по почти 24 000 граждан США, были предоставлены агентам ФБР с 2003 по 2005 год. Затем данные были добавлены в банки данных, доступные тысячам агентов. [19]
Государственно-частные отношения телекоммуникационных компаний распространяются на сферу внутренней безопасности . Телекоммуникационные компании, включая AT&T , Verizon и BellSouth , сотрудничали с запросами АНБ на доступ к транзакционным записям. [20] Телекоммуникационные компании, включая AT&T, поддерживали партнерские отношения с правительственными агентствами, такими как Министерство внутренней безопасности, для сотрудничества в области обмена информацией и решения национальных проблем кибербезопасности. [21] Представители AT&T входят в совет Национального альянса по кибербезопасности (NCSA), который способствует повышению осведомленности о кибербезопасности и защите пользователей компьютеров. [21]
Аналитики АНБ, работающие под руководством секретной Программы наблюдения за терроризмом , также использовали интеллектуальный анализ данных для поиска подозреваемых в терроризме и сочувствующих. В ходе этого поиска АНБ перехватывало сообщения, включая телефонные звонки, исходящие и входящие в Соединенные Штаты. Агенты проверяли информацию на предмет возможных связей с терроризмом, таких как желание научиться управлять самолетами или конкретные местоположения получателей сообщений, например, Пакистан. [20]
В 2005 году газета New York Times сообщила о существовании программы, которую администрация Буша защищала как необходимую для ее усилий по борьбе с терроризмом и ограничивающуюся подозреваемыми в терроризме и сообщниками. [20]
Однако в 2007 году в статье Wired отмечалось, что AT&T и Verizon были привлечены к ответственности в федеральном суде за предоставление АНБ доступа к миллиардам телефонных записей, принадлежащих американцам, для антитеррористической деятельности, такой как использование интеллектуального анализа данных для обнаружения подозреваемых террористов и несанкционированного прослушивания телефонных разговоров . [2]
В 2013 году после утечек Сноудена выяснилось, что программа также перехватывала сообщения не только подозреваемых в терроризме, но и миллионов американских граждан. Независимый аудит 2014 года, проведенный Советом по надзору за конфиденциальностью и гражданскими свободами, показал, что программа имела ограниченные преимущества в борьбе с терроризмом. [20]