Очистка данных

Практика полного стирания данных с носителя информации

Очистка данных подразумевает безопасное и постоянное удаление конфиденциальных данных из наборов данных и носителей, чтобы гарантировать невозможность восстановления остаточных данных даже с помощью обширного судебно-медицинского анализа. [1] Очистка данных имеет широкий спектр применения, но в основном используется для очистки электронных устройств с истекшим сроком службы или для обмена и использования больших наборов данных, содержащих конфиденциальную информацию. Основными стратегиями удаления персональных данных с устройств являются физическое уничтожение, криптографическое стирание и стирание данных. Хотя термин «очистка данных» может заставить некоторых поверить, что он включает в себя только данные на электронных носителях, он также широко охватывает физические носители, такие как бумажные копии. Эти типы данных называются мягкими для электронных файлов и жесткими для бумажных копий на физических носителях. Методы очистки данных также применяются для очистки конфиденциальных данных, например, с помощью эвристических методов, методов на основе машинного обучения и анонимности k-источников. [2]

Это удаление необходимо, поскольку все больше данных перемещается в онлайн-хранилище, что создает риск конфиденциальности в ситуации, когда устройство перепродается другому лицу. Важность очистки данных возросла в последние годы, поскольку частная информация все чаще хранится в электронном формате, а для распространения частной информации используются более крупные и сложные наборы данных. Электронное хранилище расширилось и позволило хранить больше частных данных. Поэтому требуются более продвинутые и тщательные методы очистки данных, чтобы гарантировать, что на устройстве не останется никаких данных после того, как оно больше не используется. Технологические инструменты, которые позволяют передавать большие объемы данных, также позволяют обмениваться большим количеством частных данных. Особенно с ростом популярности обмена и хранения информации в облаке, методы очистки данных, которые гарантируют, что все передаваемые данные очищены, стали серьезной проблемой. Поэтому вполне разумно, чтобы правительства и частный сектор создавали и применяли политики очистки данных для предотвращения потери данных или других инцидентов безопасности.

Политика очистки данных в государственном и частном секторах

Хотя практика очистки данных является общеизвестной в большинстве технических областей, она не всегда понимается на всех уровнях бизнеса и правительства. Таким образом, требуется комплексная политика очистки данных в государственных контрактах и ​​частном секторе, чтобы избежать возможной потери данных, утечки государственных секретов противникам, раскрытия запатентованных технологий и возможного отстранения от участия в конкурсе по контрактам со стороны государственных органов.

Триада ЦРУ, Джон М. Кеннеди, Creative Commons Attribution-Share Alike 3.0, Wikimedia

С ростом взаимосвязанности мира стало еще более важным, чтобы правительства, компании и частные лица следовали определенным протоколам очистки данных, чтобы гарантировать сохранение конфиденциальности информации на протяжении всего ее жизненного цикла. Этот шаг имеет решающее значение для основной триады информационной безопасности: конфиденциальности, целостности и доступности. Эта триада ЦРУ особенно актуальна для тех, кто работает в качестве государственных подрядчиков или обрабатывает другую конфиденциальную частную информацию. С этой целью государственные подрядчики должны следовать определенным политикам очистки данных и использовать эти политики для обеспечения соблюдения рекомендуемых Национальным институтом стандартов и технологий руководств по очистке носителей информации, изложенных в Специальной публикации NIST 800-88. [3] Это особенно распространено для любой правительственной работы, которая требует CUI (контролируемая несекретная информация) или выше и требуется в соответствии с пунктом 252.204-7012 DFARS , Защита защищенной оборонной информации и сообщения о киберинцидентах [4] Хотя частный сектор может не быть обязан следовать стандартам NIST 800-88 для очистки данных, это обычно считается лучшей практикой в ​​отраслях с конфиденциальными данными. Чтобы еще больше усугубить проблему, постоянная нехватка киберспециалистов и путаница в отношении надлежащей кибергигиены создали дефицит навыков и финансирования для многих государственных подрядчиков.

Однако несоблюдение этих рекомендуемых политик очистки может привести к серьезным последствиям, включая потерю данных, утечку государственных секретов злоумышленникам, потерю запатентованных технологий и предотвращение конкуренции за контракты со стороны государственных учреждений. [5] Поэтому сообщество государственных подрядчиков должно гарантировать, что его политики очистки данных четко определены и следуют рекомендациям NIST по очистке данных. Кроме того, хотя может показаться, что основное внимание при очистке данных уделяется электронным данным «мягкой копии», другие источники данных, такие как документы «на бумажном носителе», должны рассматриваться в тех же политиках очистки.

Чтобы изучить существующие примеры политик очистки данных и определить последствия неразработки, использования или несоблюдения этих руководящих принципов и рекомендаций политики, исследовательские данные были собраны не только из сектора государственных контрактов, но и из других критически важных отраслей, таких как оборона, энергетика и транспорт. Они были выбраны, поскольку они, как правило, также подпадают под действие государственных нормативных актов, и, следовательно, руководящие принципы и политики NIST (Национального института стандартов и технологий) также будут применяться в Соединенных Штатах. Основные данные взяты из исследования, проведенного независимой исследовательской компанией Coleman Parkes Research в августе 2019 года. [6] Этот исследовательский проект был нацелен на многих старших руководителей и разработчиков политики в области кибербезопасности, в ходе которого было опрошено более 1800 старших заинтересованных сторон. Данные Coleman Parkes показывают, что 96% организаций имеют политику очистки данных; однако в Соединенных Штатах только 62% респондентов считают, что политика хорошо доведена до сведения всего бизнеса. Кроме того, это показывает, что удаленные и контрактные работники с наименьшей вероятностью соблюдают политику очистки данных. Эта тенденция стала более актуальной проблемой, поскольку многие государственные подрядчики и частные компании работают удаленно из-за пандемии Covid-19. Вероятность того, что это продолжится после возвращения к нормальным условиям работы, велика.

26 июня 2021 года базовый поиск Google по запросу «данные, потерянные из-за отсутствия очистки» дал более 20 миллионов результатов. Среди них были статьи о: утечках данных и потере бизнеса, военных секретах и ​​потерях конфиденциальных данных, PHI (защищенная медицинская информация), [7] PII (лично идентифицируемая информация), [8] и множество статей о выполнении необходимой очистки данных. Многие из этих статей также указывают на существующие политики очистки данных и безопасности компаний и государственных органов, такие как Агентство по охране окружающей среды США, «Образец политики и руководящих принципов языка очистки федеральных СМИ». [9] На основании этих статей и рекомендаций NIST 800-88, в зависимости от уровня безопасности данных или категоризации, данные должны быть: [3]

  • Очищено – обеспечивает базовый уровень очистки данных путем перезаписи секторов данных для удаления любых предыдущих остатков данных, которые не включены в базовый формат. Опять же, основное внимание уделяется электронным носителям. Этот метод обычно используется, если носитель будет повторно использоваться в организации на аналогичном уровне безопасности данных.
  • Purged – может использовать физические (размагничивание) или логические методы (перезапись сектора), чтобы сделать целевой носитель нечитаемым. Обычно используется, когда носитель больше не нужен и находится на более низком уровне безопасности данных.
  • Уничтожено – навсегда делает данные невосстановимыми и обычно используется, когда носитель покидает организацию или достигает конца срока службы, например, измельчение бумаги или дробление и сжигание жесткого диска/носителя. Этот метод обычно используется для носителей, содержащих высокочувствительную информацию и государственные секреты, которые могут нанести серьезный ущерб национальной безопасности или конфиденциальности и безопасности отдельных лиц.

Препятствия к очистке данных

Исследование Cyber ​​Workforce, проведенное Международным консорциумом по сертификации безопасности информационных систем в 2020 году, показывает, что в глобальной индустрии кибербезопасности по-прежнему имеется более 3,12 млн незаполненных должностей из-за нехватки навыков. [10] Таким образом, те, у кого есть правильный набор навыков для внедрения NIST 800-88 в политики, могут получать повышенную ставку оплаты труда. Кроме того, необходимо скорректировать кадровое обеспечение и финансирование для удовлетворения потребностей политики, чтобы должным образом внедрить эти методы очистки в сочетании с соответствующей категоризацией уровня данных для улучшения результатов безопасности данных и сокращения потерь данных. Чтобы обеспечить конфиденциальность данных клиентов и заказчиков, правительство и частный сектор должны разработать и соблюдать конкретные политики очистки данных, которые соответствуют передовым практикам, таким как те, которые изложены в NIST 800-88. Без последовательных и обязательных требований политики данные будут подвергаться повышенному риску компрометации. Чтобы добиться этого, организации должны разрешить надбавку к заработной плате за кибербезопасность для привлечения квалифицированных талантов. Чтобы предотвратить потерю данных и, следовательно, конфиденциальных данных, личной информации, коммерческих тайн и секретной информации, вполне логично следовать передовым практикам.

Лучшие практики политики очистки данных

Титульный лист секретных данных, Glunggenbauer, опубликовано по лицензии CC BY 2.0 Wikimedia

Политика очистки данных должна быть всеобъемлющей и включать уровни данных и соответствующие методы очистки. Любая созданная политика очистки данных должна быть всеобъемлющей и включать все формы носителей, включая данные в печатном и электронном виде. Категории данных также должны быть определены, чтобы в рамках политики очистки были определены соответствующие уровни очистки. Эта политика должна быть определена таким образом, чтобы все уровни данных могли соответствовать соответствующему методу очистки. Например, контролируемая несекретная информация на электронных устройствах хранения может быть очищена или удалена, но те устройства, на которых хранятся секретные или совершенно секретные материалы, должны быть физически уничтожены.

Любая политика очистки данных должна быть реализуемой и показывать, какой отдел и структура управления несут ответственность за обеспечение соответствующей очистки данных. Эта политика потребует лидера руководства высокого уровня (обычно директора по информационной безопасности или другого эквивалента высшего звена) для процесса и определения обязанностей и штрафов для сторон на всех уровнях. Этот лидер политики будет включать определение таких понятий, как владелец информационной системы и владелец информации, чтобы определить цепочку ответственности за создание данных и возможную очистку. [11] Директор по информационной безопасности или другой лидер политики также должен обеспечить выделение финансирования дополнительным работникам по кибербезопасности для внедрения и обеспечения соблюдения политики. Требования аудита также обычно включаются для доказательства уничтожения носителей и должны управляться этим дополнительным персоналом. Для малого бизнеса и тех, у кого нет обширного опыта в киберпространстве, доступны ресурсы в виде редактируемых шаблонов политики очистки данных. Многие группы, такие как IDSC (Международный консорциум по очистке данных), предоставляют их бесплатно на своем веб-сайте https://www.datasanitization.org/.

Без обучения принципам безопасности данных и дезинфекции невозможно ожидать, что пользователи будут соблюдать политику. Поэтому политика дезинфекции должна включать матрицу инструкций и частоты по категориям должностей, чтобы гарантировать, что пользователи на каждом уровне понимают свою роль в соблюдении политики. Эту задачу должно быть легко выполнить, поскольку большинство государственных подрядчиков уже обязаны проводить ежегодное обучение по информационной безопасности для всех сотрудников. Поэтому можно добавить дополнительный контент, чтобы обеспечить соответствие политике дезинфекции данных.

Устройства для дезинфекции

Основное применение очистки данных — полная очистка устройств и уничтожение всех конфиденциальных данных после того, как устройство хранения больше не используется или переносится в другую информационную систему. [12] Это важный этап в жизненном цикле безопасности данных (DSL) [1] и управлении жизненным циклом информации (ILM). Оба подхода обеспечивают конфиденциальность и управление данными на протяжении всего использования электронного устройства, поскольку они гарантируют, что все данные будут уничтожены и не подлежат восстановлению, когда устройства достигнут конца своего жизненного цикла. [1]

Существует три основных метода очистки данных для полного стирания данных: физическое уничтожение, криптографическое стирание и стирание данных. [1] Все три метода стирания направлены на то, чтобы гарантировать, что к удаленным данным нельзя будет получить доступ даже с помощью передовых методов судебной экспертизы, что сохраняет конфиденциальность данных отдельных лиц даже после того, как мобильное устройство больше не используется. [1]

Физическое уничтожение

Электронные отходы в ожидании уничтожения и электронной переработки

Физическое стирание подразумевает ручное уничтожение сохраненных данных. Этот метод использует механические измельчители или размагничиватели для измельчения устройств, таких как телефоны, компьютеры, жесткие диски и принтеры, на мелкие отдельные части. Различные уровни безопасности данных требуют различных уровней уничтожения.

Размагничивание чаще всего используется на жестких дисках (HDD) и включает в себя использование магнитных полей высокой энергии для постоянного нарушения функциональности и хранения памяти устройства. Когда данные подвергаются воздействию этого сильного магнитного поля, любое хранилище памяти нейтрализуется и не может быть восстановлено или использовано снова. Размагничивание не применяется к твердотельным дискам (SSD), поскольку данные не хранятся с использованием магнитных методов. Когда речь идет об особенно конфиденциальных данных, обычно используются такие процессы, как бумажная масса, специальный прожиг и твердотельное преобразование. [13] Это обеспечит надлежащее уничтожение всех чувствительных носителей, включая бумагу, твердые и мягкие носители, оптические носители, специализированное вычислительное оборудование.

Физическое уничтожение часто гарантирует, что данные полностью стерты и не могут быть использованы повторно. Однако физические побочные продукты механических отходов от механического измельчения могут быть вредны для окружающей среды, но недавняя тенденция к увеличению количества электронных отходов , восстанавливаемых путем электронной переработки, помогла минимизировать воздействие на окружающую среду. Кроме того, после физического уничтожения данные больше не могут быть перепроданы или использованы повторно.

Криптографическое стирание

Криптографическое стирание подразумевает уничтожение безопасного ключа или парольной фразы, которые используются для защиты хранимой информации. Шифрование данных подразумевает разработку безопасного ключа, который позволяет только уполномоченным сторонам получать доступ к хранимым данным. Постоянное стирание этого ключа гарантирует, что к хранимым личным данным больше нельзя будет получить доступ. Криптографическое стирание обычно устанавливается производителями самого устройства, поскольку программное обеспечение для шифрования часто встроено в устройство. Шифрование со стиранием ключа подразумевает шифрование всех конфиденциальных материалов таким образом, что для расшифровки информации при необходимости ее использования требуется безопасный ключ. [14] Когда информацию необходимо удалить, безопасный ключ можно стереть. Это обеспечивает большую простоту использования и более быстрое стирание данных, чем другие программные методы, поскольку оно подразумевает одно удаление безопасной информации, а не каждого отдельного файла. [1]

Криптографическое стирание часто используется для хранения данных, которые не содержат столько личной информации, поскольку существует вероятность возникновения ошибок из-за производственных сбоев или человеческой ошибки в процессе уничтожения ключа. Это создает более широкий диапазон возможных результатов стирания данных. Этот метод позволяет продолжать хранить данные на устройстве и не требует полного стирания устройства. Таким образом, устройство можно снова перепродать другому лицу или компании, поскольку сохраняется физическая целостность самого устройства. Однако это предполагает, что уровень шифрования данных на устройстве устойчив к будущим атакам шифрования. Например, жесткий диск, использующий криптографическое стирание с 128-битным ключом AES, может быть защищен сейчас, но через 5 лет может стать обычным делом взлом этого уровня шифрования. Поэтому уровень безопасности данных должен быть объявлен в политике очистки данных, чтобы обеспечить безопасность процесса в будущем.

Удаление данных

Процесс стирания данных включает в себя маскировку всей информации на уровне байтов посредством вставки случайных нулей и единиц во все секторы электронного оборудования, которое больше не используется. [1] Этот программный метод гарантирует, что все ранее сохраненные данные полностью скрыты и не подлежат восстановлению, что обеспечивает полную очистку данных. Эффективность и точность этого метода очистки также можно проанализировать с помощью проверяемых отчетов. [15]

Удаление данных часто обеспечивает полную очистку, сохраняя при этом физическую целостность электронного оборудования, чтобы технологию можно было перепродать или использовать повторно. Эта возможность переработки технологических устройств делает удаление данных более экологически безопасной версией очистки данных. Этот метод также является наиболее точным и всеобъемлющим, поскольку эффективность маскировки данных может быть проверена впоследствии, чтобы гарантировать полное удаление. Однако удаление данных с помощью программных механизмов требует больше времени по сравнению с другими методами.

Безопасное стирание

Ряд наборов носителей информации поддерживают команду, которая при передаче устройству заставляет его выполнять встроенную процедуру очистки. Следующие наборы команд определяют такую ​​стандартную команду:

  • ATA (включая SATA) определяет команду Security Erase . Определены два уровня тщательности. [16]
  • SCSI (включая SAS и другие физические соединения) определяет команду SANITIZE. [17]
  • NVMe определяет форматирование с безопасным стиранием. [18]
  • Спецификация Opal Storage определяет набор команд для самошифрующихся дисков и криптографического стирания, доступных в дополнение к методам набора команд.

Диск обычно выполняет быстрое криптографическое стирание, когда данные зашифрованы, и более медленное стирание данных путем перезаписи в противном случае. [18] SCSI позволяет запрашивать определенный тип стирания. [17]

При правильной реализации встроенная функция очистки достаточна для того, чтобы сделать данные невосстановимыми. NIST одобряет использование этой функции. [19] [20] Было несколько сообщений о случаях сбоев при удалении некоторых или всех данных из-за неисправной прошивки, иногда легко обнаруживаемой в редакторе секторов. [21] [22] [23]

Необходимость очистки данных

Все чаще используются мобильные устройства, технологии Интернета вещей (IoT), облачные системы хранения данных, портативные электронные устройства и различные другие электронные методы хранения конфиденциальной информации, поэтому внедрение эффективных методов стирания после того, как устройство больше не используется, стало критически важным для защиты конфиденциальных данных. [24] В связи с возросшим использованием электронных устройств в целом и увеличением объема хранения личной информации на этих электронных устройствах, необходимость в очистке данных стала гораздо более актуальной в последние годы. [25]

Существуют также определенные методы очистки, которые не полностью очищают устройства от личных данных, что может оказаться проблематичным. Например, некоторые методы удаленной очистки на мобильных устройствах уязвимы для внешних атак, а эффективность зависит от уникальной эффективности каждой отдельной установленной программной системы. [24] Удаленная очистка подразумевает отправку беспроводной команды на устройство, когда оно потеряно или украдено, которая предписывает устройству полностью стереть все данные. Хотя этот метод может быть очень полезным, у него также есть несколько недостатков. Например, метод удаленной очистки может быть использован злоумышленниками для подачи сигнала о процессе, когда в этом еще нет необходимости. Это приводит к неполной очистке данных. Если злоумышленники получат доступ к хранилищу на устройстве, пользователь рискует раскрыть всю сохраненную личную информацию.

Облачные вычисления и хранение данных становятся все более популярным методом хранения и передачи данных. Однако существуют определенные проблемы конфиденциальности, связанные с облачными вычислениями, которые не были полностью изучены. [26] Облачные вычисления уязвимы для различных атак, таких как внедрение кода, атака обхода пути и истощение ресурсов из-за общей структуры пула этих новых методов. Эти модели облачного хранения требуют определенных методов очистки данных для борьбы с этими проблемами. Если данные не удаляются должным образом из моделей облачного хранения, это открывает возможность для нарушений безопасности на нескольких уровнях.

Риски, связанные с неадекватной очисткой наборов данных

Неадекватные методы очистки данных могут привести к двум основным проблемам: утечке частной информации и нарушению целостности исходного набора данных. Если методы очистки данных не справляются с удалением всей конфиденциальной информации, это создает риск утечки этой информации злоумышленникам. [26] Было проведено множество исследований для оптимизации способов сохранения конфиденциальной информации. Некоторые методы очистки данных обладают высокой чувствительностью к отдельным точкам, которые не имеют близости к точкам данных. Этот тип очистки данных очень точный и может обнаруживать аномалии, даже если отравленная точка данных относительно близка к истинным данным. [27] Другой метод очистки данных — это метод, который также удаляет выбросы в данных, но делает это более общим образом. Он обнаруживает общую тенденцию данных и отбрасывает любые данные, которые отклоняются, и способен выявлять аномалии, даже если они вставлены как группа. [27] В целом, методы очистки данных используют алгоритмы для обнаружения аномалий и удаления любых подозрительных точек, которые могут быть отравленными данными или конфиденциальной информацией.

Кроме того, методы очистки данных могут удалять полезную, неконфиденциальную информацию, что затем делает очищенный набор данных менее полезным и измененным по сравнению с оригиналом. Были итерации общих методов очистки данных, которые пытаются исправить проблему потери целостности исходного набора данных. В частности, Лю, Сюань, Вэнь и Сун предложили новый алгоритм очистки данных, называемый методом Improved Minimum Sensitive Itemets Conflict First Algorithm (IMSICF). [28] Часто уделяется большое внимание защите конфиденциальности пользователей, поэтому этот метод предлагает новую перспективу, которая также фокусируется на защите целостности данных. Он функционирует таким образом, что имеет три основных преимущества: он учится оптимизировать процесс очистки, очищая только элемент с наибольшим количеством конфликтов, сохраняет части набора данных с наибольшей полезностью, а также анализирует степень конфликта конфиденциального материала. Было проведено надежное исследование эффективности и полезности этого нового метода, чтобы выявить способы, которыми он может принести пользу для поддержания целостности набора данных. Эта новая технология позволяет сначала точно определить конкретные части набора данных, которые, возможно, являются зараженными данными, а также использовать компьютерные алгоритмы для расчета компромиссов относительно того, насколько они полезны, чтобы решить, следует ли их удалять. [28] Это новый способ очистки данных, который учитывает полезность данных, прежде чем они будут немедленно удалены.

Применение очистки данных

Методы очистки данных также применяются для интеллектуального анализа данных, сохраняющего конфиденциальность, сокрытия правил ассоциации и безопасного обмена информацией на основе блокчейна. Эти методы включают передачу и анализ больших наборов данных, содержащих конфиденциальную информацию. Эту конфиденциальную информацию необходимо очистить перед тем, как она станет доступной в сети, чтобы конфиденциальные материалы не были раскрыты. Очистка данных используется для обеспечения сохранения конфиденциальности в наборе данных, даже когда он анализируется.

Интеллектуальный анализ данных с сохранением конфиденциальности

Privacy Preserving Data Mining (PPDM) — это процесс добычи данных с сохранением конфиденциальности конфиденциальных материалов. Добыча данных включает анализ больших наборов данных для получения новой информации и выводов. PPDM имеет широкий спектр применения и является неотъемлемым этапом передачи или использования любого большого набора данных, содержащего конфиденциальные материалы.

Очистка данных является неотъемлемым шагом к сохранению конфиденциальности при добыче данных, поскольку частные наборы данных должны быть очищены, прежде чем они могут быть использованы отдельными лицами или компаниями для анализа. Целью сохранения конфиденциальности при добыче данных является обеспечение того, чтобы частная информация не могла быть украдена или доступна злоумышленникам, а конфиденциальные данные не могли быть отслежены до лиц, которые предоставили данные. [29] Целью сохранения конфиденциальности при добыче данных является сохранение этого уровня конфиденциальности для отдельных лиц, а также сохранение целостности и функциональности исходного набора данных. [30] Для того чтобы набор данных использовался, необходимые аспекты исходных данных должны быть защищены в процессе очистки данных. Этот баланс между конфиденциальностью и полезностью был основной целью методов очистки данных. [30]

Один из подходов к достижению этой оптимизации конфиденциальности и полезности заключается в шифровании и дешифровании конфиденциальной информации с использованием процесса, называемого генерацией ключей . [30] После того, как данные очищены, генерация ключей используется для обеспечения безопасности этих данных и невозможности их подделки. Такие подходы, как алгоритм оптимизации Rider (ROA), также называемый рандомизированным ROA (RROA), используют эти стратегии генерации ключей для поиска оптимального ключа, чтобы данные можно было передавать без утечки конфиденциальной информации. [30]

Некоторые версии генерации ключей также были оптимизированы для соответствия более крупным наборам данных. Например, новая, основанная на методе стратегия Privacy Preserving Distributed Data Mining способна повысить конфиденциальность и скрыть конфиденциальные материалы посредством генерации ключей. Эта версия очистки позволяет очищать большие объемы материала. Для компаний, которые стремятся делиться информацией с несколькими различными группами, эта методология может быть предпочтительнее оригинальных методов, обработка которых занимает гораздо больше времени. [31]

Некоторые модели очистки данных удаляют или добавляют информацию в исходную базу данных в попытке сохранить конфиденциальность каждого субъекта. Эти эвристические алгоритмы начинают становиться все более популярными, особенно в области интеллектуального анализа ассоциативных правил. Эвристические методы включают в себя определенные алгоритмы, которые используют сокрытие шаблонов, сокрытие правил и сокрытие последовательностей для сохранения определенной информации скрытой. Этот тип сокрытия данных может использоваться для покрытия широких шаблонов в данных, но не так эффективен для защиты определенной информации. Эвристические методы не так подходят для очистки больших наборов данных, однако недавние разработки в области эвристики проанализировали способы решения этой проблемы. Примером может служить подход MR-OVnTSA, подход к сокрытию чувствительных шаблонов на основе эвристики для больших данных , представленный Шивани Шармой и Дургой Тошнивой. [25] Этот подход использует основанный на эвристике метод, называемый «MapReduce Based Optimum Victim Item and Transaction Selection Approach», также называемый MR-OVnTSA, который направлен на сокращение потерь важных данных при удалении и сокрытии конфиденциальной информации. Он использует преимущества алгоритмов, которые сравнивают шаги и оптимизируют очистку. [25]

Важной целью PPDM является достижение баланса между сохранением конфиденциальности пользователей, которые предоставили данные, и предоставлением разработчикам возможности в полной мере использовать набор данных. Многие меры PPDM напрямую изменяют набор данных и создают новую версию, которая делает исходную невосстановимой. Он строго стирает любую конфиденциальную информацию и делает ее недоступной для злоумышленников.

Ассоциативный анализ правил

Одним из типов очистки данных является PPDM на основе правил, который использует определенные компьютерные алгоритмы для очистки наборов данных. Скрытие правил ассоциации — это процесс очистки данных, применяемый к транзакционным базам данных. [32] Транзакционные базы данных — это общий термин для хранения данных, используемых для записи транзакций, когда организации ведут свой бизнес. Примерами являются платежи по доставке, платежи по кредитным картам и заказы на продажу. Этот источник анализирует пятьдесят четыре различных метода очистки данных и представляет четыре основных вывода о своих тенденциях

Некоторые новые методы очистки данных, основанные на машинном глубоком обучении. Существуют различные недостатки в текущем использовании очистки данных. Многие методы недостаточно сложны или подробны, чтобы защитить от более конкретных атак на данные. [33] Эти усилия по сохранению конфиденциальности при датировании важных данных называются сохраняющим конфиденциальность интеллектуальным анализом данных. Машинное обучение разрабатывает методы, которые более адаптированы к различным типам атак и могут научиться справляться с более широким спектром ситуаций. Глубокое обучение способно упростить методы очистки данных и выполнять эти защитные меры более эффективным и менее трудоемким способом.

Существуют также гибридные модели, которые используют как методы, основанные на правилах, так и методы машинного глубокого обучения для достижения баланса между этими двумя методами.

Безопасный обмен информацией на основе блокчейна

Облачные системы хранения данных, поддерживаемые браузером, в значительной степени зависят от очистки данных и становятся все более популярным способом хранения данных. [34] Кроме того, простота использования важна для предприятий и рабочих мест, которые используют облачное хранилище для общения и совместной работы. [26]

Блокчейн используется для записи и передачи информации безопасным способом, и методы очистки данных необходимы для обеспечения более безопасной и точной передачи этих данных. Это особенно применимо для тех, кто работает в сфере управления цепочками поставок, и может быть полезно для тех, кто хочет оптимизировать процесс цепочки поставок. [26] Например, алгоритм оптимизации Whale (WOA) использует метод безопасной генерации ключей для обеспечения безопасного обмена информацией с помощью технологии блокчейн. [26] Необходимость улучшения методов блокчейна становится все более актуальной по мере того, как глобальный уровень развития растет и становится все более зависимым от электроники.

Специфические отраслевые приложения

Здравоохранение

Индустрия здравоохранения является важным сектором, который в значительной степени зависит от добычи данных и использования наборов данных для хранения конфиденциальной информации о пациентах. Использование электронного хранения также возросло в последние годы, что требует более комплексных исследований и понимания рисков, которые оно может представлять. В настоящее время методы добычи и хранения данных способны хранить только ограниченные объемы информации. Это снижает эффективность хранения данных и увеличивает затраты на хранение данных. Новые передовые методы хранения и добычи данных, включающие облачные системы, становятся все более популярными, поскольку они способны как добывать, так и хранить большие объемы информации.

Ссылки

  1. ^ abcdefg "Терминология и определения очистки данных". Международный консорциум очистки данных . Получено 03.07.2021 .
  2. ^ "K - анонимность: Введение". Privitar . 2017-04-07 . Получено 2021-06-12 .
  3. ^ ab Регеншайд, Эндрю Р.; Фельдман, Ларри; Витте, Грегори А. (2015-02-05). "Специальная публикация NIST 800-88, редакция 1: Руководство по очистке носителей информации". Nist .
  4. ^ Статья 252.204-7012 DFARS, Защита защищенной оборонной информации и сообщения о киберинцидентах. https://www.acq.osd.mil/dpap/policy/policyvault/USA002829-17-DPAP.pdf
  5. ^ Винсон; Табб, Elkins LLP-Джейми Ф.; Макинтайр, Элизабет Крабилл; Сатира, Джон М. (2019-07-10). «Правда или киберпоследствия: государственный подрядчик отстранен после кибератаки и утечки данных». Lexology . Получено 2021-07-03 .
  6. ^ Coleman Parkes Research (18 мая 2020 г.). «Очистка данных: политика против реальности 2019» . Получено 19 июня 2021 г.
  7. ^ Отдел (DCD), Цифровые коммуникации (2015-06-07). "Что такое PHI?". HHS.gov . Получено 2021-06-26 .
  8. ^ «Что такое персонально идентифицируемая информация?». Министерство внутренней безопасности . 2020-11-30 . Получено 2021-06-26 .
  9. ^ Агентство по охране окружающей среды (июнь 2012 г.). «Образец политики и руководящих принципов языка для федеральной очистки СМИ» (PDF) . Получено 19 июня 2021 г.
  10. ^ Международный консорциум по сертификации безопасности информационных систем, Исследование рабочей силы в сфере кибербезопасности 2020 г. , https://www.isc2.org/Research/Workforce-Study# [Дата обращения: 22.06.2021]
  11. ^ CISOMAG (2019-11-20). «Как удаление данных может защитить безопасность данных». CISO MAG | Журнал Cyber ​​Security . Получено 03.07.2021 .
  12. ^ "Очистка данных | Университетские ИТ". uit.stanford.edu . Получено 2021-04-30 .
  13. ^ "Конверсия секретных материалов АНБ (CMC)". www.nsa.gov . Получено 26.06.2021 .
  14. ^ Diesburg, Sarah M.; Wang, An-I Andy (2010-12-03). «Обзор методов хранения и удаления конфиденциальных данных» (PDF) . ACM Computing Surveys . 43 (1): 2:1–2:37. CiteSeerX 10.1.1.188.3969 . doi :10.1145/1824795.1824797. S2CID  3336775. 
  15. ^ "Что такое очистка данных? | Методы удаления данных | Imperva". Центр обучения . Получено 2021-04-30 .
  16. ^ hdparm(8)  –  Руководство программиста Linux – Администрирование и привилегированные команды
  17. ^ ab sg_sanitize(8) –  Руководство программиста Linux – Администрирование и привилегированные команды
  18. ^ ab nvme-format(1) –  Руководство пользователя Linux – Команды пользователя
  19. ^ Хьюз, Гордон; Кофлин, Том (2007). "Учебное пособие по очистке данных на дисках" (PDF) . Калифорнийский университет, Центр исследований магнитной записи в Сан-Диего. Архивировано из оригинала (PDF) 2017-12-30 . Получено 2008-06-10 .
  20. ^ "Вопросы и ответы по безопасному стиранию". Калифорнийский университет, Центр исследований магнитной записи в Сан-Диего. Архивировано из оригинала (DOC) 2017-12-30.
  21. ^ «Остерегайтесь – когда SECURE ERASE вообще не стирает». HDD Oracle. 2015-11-15 . Получено 2018-01-08 .
  22. ^ "ATA Secure Erase (SE) и hdparm". 2016-11-06 . Получено 2018-01-08 .
  23. ^ Майкл Вэй; Лора М. Групп; Фредерик Э. Спада; Стивен Свонсон (2011). «Надежное стирание данных с твердотельных накопителей на основе флэш-памяти» (PDF) . FAST'11: Труды 9-й конференции USENIX по технологиям хранения файлов . Wikidata  Q115346857 . Получено 08.01.2018 .
  24. ^ ab Leom, Ming Di; Choo, Kim-Kwang Raymond; Hunt, Ray (2016). «Удалённое стирание и безопасное удаление на мобильных устройствах: обзор». Журнал судебных наук . 61 (6): 1473– 1492. doi : 10.1111/1556-4029.13203. PMID  27651127. S2CID  20563918.
  25. ^ abc Шарма, Шивани; Тошнивал, Дурга (2020-12-01). «MR-OVnTSA: подход к сокрытию чувствительных шаблонов на основе эвристики для больших данных». Applied Intelligence . 50 (12): 4241– 4260. doi :10.1007/s10489-020-01749-6. S2CID  220542429.
  26. ^ abcde Табризчи, Хамед; Кучаки Рафсанджани, Марджан (2020-12-01). «Обзор проблем безопасности в облачных вычислениях: проблемы, угрозы и решения». Журнал суперкомпьютеров . 76 (12): 9493– 9532. doi :10.1007/s11227-020-03213-1. S2CID  211539375.
  27. ^ ab Koh, Pang Wei; Steinhardt, Jacob; Liang, Percy (2018-11-01). «Более сильные атаки отравления данных разрушают защиту очистки данных». arXiv : 1811.00741 [stat.ML].
  28. ^ ab Лю, Сюань; Чэнь, Гэньланг; Вэнь, Шитин; Сун, Гуанхуэй (2020-05-31). «Улучшенный алгоритм дезинфекции в майнинге утилит, сохраняющих конфиденциальность». Математические проблемы в инженерии . 2020 : 1– 14. doi : 10.1155/2020/7489045 .
  29. ^ Aldeen, YAAS, Salleh, M. & Razzaque, MA. Комплексный обзор по сохранению конфиденциальности при интеллектуальном анализе данных. SpringerPlus 4, 694 (2015). doi :10.1186/s40064-015-1481-x
  30. ^ abcd Шивашанкар, Мохана; Мэри, Сахаая Арул (2021). «Сохранение конфиденциальности данных с использованием модифицированного алгоритма оптимизации Rider: оптимальная модель очистки и восстановления данных». Expert Systems . 38 (3): e12663. doi :10.1111/exsy.12663. S2CID  233433366.
  31. ^ Лекшми, ПЛ; Рахиман, М. Абдул (2020-07-01). «Подход к санации для сохранения конфиденциальности при интеллектуальном анализе данных в социальной распределенной среде». Журнал Ambient Intelligence and Humanized Computing . 11 (7): 2761– 2777. doi :10.1007/s12652-019-01335-w. S2CID  198324918.
  32. ^ Теликани, Акбар; Шахбахрами, Асадолла (2018). «Очистка данных при извлечении ассоциативных правил: аналитический обзор». Экспертные системы с приложениями . 96 : 406– 426. doi :10.1016/j.eswa.2017.10.048.
  33. ^ Ахмед, Усман; Шривастава, Гаутам; Лин, Джерри Чун-Вэй (2021). «Модель машинного обучения для очистки данных». Компьютерные сети . 189 : 107914. doi : 10.1016/j.comnet.2021.107914 . ISSN  1389-1286.
  34. ^ Балашунмугараджа, Б.; Ганешбабу, ТР (2020-05-30). «Оптимальная генерация ключей для очистки данных и восстановления облачных данных: будущее финансовой кибербезопасности». Международный журнал информационных технологий и принятия решений . 19 (4): 987– 1013. doi :10.1142/S0219622020500200. S2CID  219768812.
Взято с "https://en.wikipedia.org/w/index.php?title=Обеззараживание_данных&oldid=1260641577"