Редактирование данных определяется как процесс, включающий проверку и корректировку собранных данных опроса . [1] Редактирование данных помогает определить руководящие принципы, которые уменьшат потенциальную предвзятость и обеспечат согласованные оценки, ведущие к четкому анализу набора данных путем исправления противоречивых данных с использованием методов, описанных далее в этой статье. [2] Цель состоит в том, чтобы контролировать качество собранных данных. [3] Редактирование данных может выполняться вручную, с помощью компьютера или с помощью комбинации того и другого. [4]
Методы редактирования относятся к ряду процедур и процессов, используемых для обнаружения и обработки ошибок в данных. Редактирование данных используется с целью улучшения качества полученных статистических данных. Эти модификации могут значительно улучшить качество аналитики, созданной с целью обнаружения и исправления ошибок. Примеры различных методов редактирования данных, таких как микроредактирование, макроредактирование, выборочное редактирование или различные инструменты, используемые для достижения редактирования данных, такие как графическое редактирование и интерактивное редактирование.
Термин «интерактивное редактирование» обычно используется для современного ручного редактирования с помощью компьютера. Большинство инструментов интерактивного редактирования данных, применяемых в национальных статистических институтах (НСИ), позволяют проверять указанные изменения во время или после ввода данных и при необходимости немедленно исправлять ошибочные данные. Для исправления ошибочных данных можно использовать несколько подходов:
Интерактивное редактирование — стандартный способ редактирования данных. Его можно использовать для редактирования как категориальных , так и непрерывных данных. [5] Интерактивное редактирование сокращает временные рамки, необходимые для завершения циклического процесса обзора и корректировки. [6] Интерактивное редактирование также требует понимания набора данных и возможных результатов, которые могут быть получены в результате анализа данных.
Выборочное редактирование — это обобщающий термин для нескольких методов выявления влиятельных ошибок, [примечание 1] и выбросов . [примечание 2] Методы выборочного редактирования направлены на применение интерактивного редактирования к хорошо выбранному подмножеству записей, так что ограниченное время и ресурсы, доступные для интерактивного редактирования, выделяются тем записям, где это оказывает наибольшее влияние на качество окончательных оценок опубликованных цифр. При выборочном редактировании данные разделяются на два потока:
Критический поток состоит из записей, которые с большей вероятностью содержат влиятельные ошибки. Эти критические записи редактируются традиционным интерактивным способом. Записи в некритическом потоке, которые вряд ли содержат влиятельные ошибки, не редактируются с помощью компьютера. [7]
Редактирование данных может осуществляться разными способами, и в первую очередь это зависит от исследуемого набора данных. [8]
Достоверность набора данных зависит от полноты ответов, предоставленных респондентами. Один из методов редактирования данных — убедиться, что все ответы являются полными в полях, требующих числового или нечислового ответа. См. пример ниже.
Проверка уникальности данных является важным аспектом редактирования данных, чтобы гарантировать, что все предоставленные данные были введены только один раз. Это снижает вероятность повторных данных, которые могут исказить аналитические отчеты. См. пример ниже.
Часто в наборах данных обнаруживаются выбросы, которые, как описано выше, являются значениями, которые не очень хорошо соответствуют модели данных. Эти экстремальные значения можно найти на основе распределения точек данных из предыдущих серий данных или параллельных серий данных для того же набора данных. Значения можно считать ошибочными и требуют дальнейшего анализа для проверки и определения достоверности ответа. Смотрите пример ниже.
Логическая согласованность — это наличие логических связей и взаимозависимости между переменными. Это редактирование требует определенного понимания набора данных и способности выявлять ошибки в данных на основе предыдущих отчетов или информации. Этот тип редактирования данных используется для учета различий между полями данных или переменными. Смотрите пример ниже.
Существует два метода редактирования макросов: [7]
Этот метод применяется почти в каждом статистическом агентстве перед публикацией: проверка того, кажутся ли цифры, которые будут опубликованы, правдоподобными. Это достигается путем сравнения величин в таблицах публикации с теми же величинами в предыдущих публикациях. Если наблюдается необычное значение, процедура микроредактирования применяется к отдельным записям и полям, способствующим подозрительной величине. [6]
Имеющиеся данные используются для характеристики распределения переменных . Затем все индивидуальные значения сравниваются с распределением. Записи, содержащие значения, которые можно считать необычными (учитывая распределение), являются кандидатами для дальнейшей проверки и, возможно, для редактирования. [9]
При автоматическом редактировании записи редактируются компьютером без вмешательства человека. [10] Предварительные знания о значениях одной переменной или комбинации переменных могут быть сформулированы как набор правил редактирования, которые определяют или ограничивают допустимые значения.
Редактирование данных имеет свои ограничения, связанные с емкостью и ресурсами любого данного исследования. Эти детерминанты могут иметь положительное или отрицательное влияние на пост-анализ набора данных. Ниже приведены несколько детерминант редактирования данных. [8]
Доступные ресурсы: [8]
Доступное программное обеспечение: [8]
Источник данных: [8]
Координация процедуры редактирования данных: [8]