Деидентификация — это процесс, используемый для предотвращения раскрытия чьей-либо личной личности . Например, данные, полученные в ходе исследований на людях, могут быть деидентифицированы для сохранения конфиденциальности участников исследования . Биологические данные могут быть деидентифицированы для соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. [1]
Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Обычные стратегии включают удаление или маскировку персональных идентификаторов , таких как личное имя , и подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования деидентифицированных данных для идентификации лиц известен как повторная идентификация данных . Успешные повторные идентификации [2] [3] [4] [5] ставят под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации обнаружил «высокий уровень повторной идентификации […], в котором доминируют мелкомасштабные исследования данных, которые не были деидентифицированы в соответствии с существующими стандартами». [6]
Деидентификация принята как один из основных подходов к защите конфиденциальности данных . [7] Она широко используется в областях коммуникаций, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио- и видеонаблюдения. [8]
Когда проводятся опросы, такие как перепись , они собирают информацию об определенной группе людей. Чтобы поощрить участие и защитить конфиденциальность респондентов опроса, исследователи пытаются разработать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы любого участника с любыми опубликованными данными. [9]
Когда сайт интернет-магазина хочет узнать предпочтения и привычки своих пользователей, он решает извлечь данные клиентов из своей базы данных и провести их анализ. Информация о персональных данных включает персональные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Сайт должен предварительно обработать данные с помощью методов деидентификации перед анализом записей данных, чтобы избежать нарушения конфиденциальности своих клиентов.
Анонимизация означает необратимое отделение набора данных от личности участника исследования для предотвращения любой будущей повторной идентификации, даже организаторами исследования при любых условиях. [10] [11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [10] [11] [12] В технологическом сообществе ведутся дебаты о том, следует ли когда-либо считать данные, которые могут быть повторно связаны, даже доверенной стороной, деидентифицированными. [13]
Распространенными стратегиями деидентификации являются маскировка персональных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки персональных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .
Псевдонимизация выполняется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако он не может предотвратить идентификацию человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [14]
k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и работают с данными, заставляя по крайней мере k человек иметь некоторую комбинацию значений QI. [14] Значения QI обрабатываются в соответствии с определенными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.
Исследования по деидентификации проводятся в основном для защиты информации о здоровье . [15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения , чтобы сохранить конфиденциальность своих читателей. [15]
В больших данных деидентификация широко применяется отдельными лицами и организациями. [8] С развитием социальных сетей, электронной коммерции и больших данных деидентификация иногда требуется и часто используется для обеспечения конфиденциальности данных , когда персональные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для собственного личного использования.
В умных городах деидентификация может быть необходима для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все еще могут собирать информацию без согласия. [16]
PHI (защищенная медицинская информация) может присутствовать в различных данных, и для каждого формата требуются особые методы и инструменты для ее деидентификации:
Всякий раз, когда человек участвует в генетическом исследовании, пожертвование биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные уникально трудно деидентифицировать. [18]
Анонимизация генетических данных особенно затруднена из-за огромного количества генотипической информации в биологических образцах [18] , связей, которые образцы часто имеют с историей болезни [19] , и появления современных инструментов биоинформатики для интеллектуального анализа данных . [19] Были продемонстрированы, что данные для отдельных лиц в агрегированных коллекциях наборов генотипических данных могут быть связаны с личностями доноров образцов. [20]
Некоторые исследователи предположили, что неразумно когда-либо обещать участникам генетических исследований, что они смогут сохранить свою анонимность, но вместо этого таких участников следует научить ограничениям использования закодированных идентификаторов в процессе деидентификации. [11]
В мае 2014 года Совет советников президента США по науке и технологиям счёл деидентификацию «в некоторой степени полезной в качестве дополнительной меры безопасности», но не «полезной основой для политики», поскольку «она не является надёжной против методов повторной идентификации в ближайшем будущем». [21]
Правило конфиденциальности HIPAA предоставляет механизмы для ответственного использования и раскрытия данных о состоянии здоровья без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и Expert Determination Method. Safe Harbor полагается на удаление определенных идентификаторов пациента (например, имени, номера телефона, адреса электронной почты и т. д.), в то время как Expert Determination Method требует знаний и опыта в области общепринятых статистических и научных принципов и методов, чтобы сделать информацию не индивидуально идентифицируемой. [22]
Метод « безопасной гавани» использует списочный подход к деидентификации и имеет два требования:
Экспертное определение использует риск-ориентированный подход к деидентификации, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человек может быть идентифицирован по его защищенной информации о здоровье . Этот метод требует, чтобы человек с соответствующими знаниями и опытом в области общепринятых статистических и научных принципов и методов сделал информацию не индивидуально идентифицируемой. Он требует:
Ключевым законом об исследовании электронных медицинских данных является HIPAA Privacy Rule. Этот закон позволяет использовать электронные медицинские записи умерших субъектов для исследований (HIPAA Privacy Rule (раздел 164.512(i)(1)(iii))). [23]