Редактирование данных

Редактирование данных определяется как процесс, включающий проверку и корректировку собранных данных опроса . [1] Редактирование данных помогает определить руководящие принципы, которые уменьшат потенциальную предвзятость и обеспечат согласованные оценки, ведущие к четкому анализу набора данных путем исправления противоречивых данных с использованием методов, описанных далее в этой статье. [2] Цель состоит в том, чтобы контролировать качество собранных данных. [3] Редактирование данных может выполняться вручную, с помощью компьютера или с помощью комбинации того и другого. [4]

Методы редактирования

Методы редактирования относятся к ряду процедур и процессов, используемых для обнаружения и обработки ошибок в данных. Редактирование данных используется с целью улучшения качества полученных статистических данных. Эти модификации могут значительно улучшить качество аналитики, созданной с целью обнаружения и исправления ошибок. Примеры различных методов редактирования данных, таких как микроредактирование, макроредактирование, выборочное редактирование или различные инструменты, используемые для достижения редактирования данных, такие как графическое редактирование и интерактивное редактирование.

Интерактивное редактирование

Термин «интерактивное редактирование» обычно используется для современного ручного редактирования с помощью компьютера. Большинство инструментов интерактивного редактирования данных, применяемых в национальных статистических институтах (НСИ), позволяют проверять указанные изменения во время или после ввода данных и при необходимости немедленно исправлять ошибочные данные. Для исправления ошибочных данных можно использовать несколько подходов:

  • Повторно свяжитесь с респондентом
  • Сравните данные респондента с его данными за предыдущий год.
  • Сравните данные респондента с данными похожих респондентов.
  • Используйте знания редактора-человека по теме

Интерактивное редактирование — стандартный способ редактирования данных. Его можно использовать для редактирования как категориальных , так и непрерывных данных. [5] Интерактивное редактирование сокращает временные рамки, необходимые для завершения циклического процесса обзора и корректировки. [6] Интерактивное редактирование также требует понимания набора данных и возможных результатов, которые могут быть получены в результате анализа данных.

Выборочное редактирование

Выборочное редактирование — это обобщающий термин для нескольких методов выявления влиятельных ошибок, [примечание 1] и выбросов . [примечание 2] Методы выборочного редактирования направлены на применение интерактивного редактирования к хорошо выбранному подмножеству записей, так что ограниченное время и ресурсы, доступные для интерактивного редактирования, выделяются тем записям, где это оказывает наибольшее влияние на качество окончательных оценок опубликованных цифр. При выборочном редактировании данные разделяются на два потока:

  • Критический поток
  • Некритический поток

Критический поток состоит из записей, которые с большей вероятностью содержат влиятельные ошибки. Эти критические записи редактируются традиционным интерактивным способом. Записи в некритическом потоке, которые вряд ли содержат влиятельные ошибки, не редактируются с помощью компьютера. [7]

Методы редактирования данных

Редактирование данных может осуществляться разными способами, и в первую очередь это зависит от исследуемого набора данных. [8]

Достоверность и полнота данных

Достоверность набора данных зависит от полноты ответов, предоставленных респондентами. Один из методов редактирования данных — убедиться, что все ответы являются полными в полях, требующих числового или нечислового ответа. См. пример ниже.

В таблице выше приведен пример неполных и недействительных данных. См. столбец 1, строку 2: ответ буквенно-цифровой, когда остальная часть таблицы числовая. См. столбец 3, строку 3: ответ неполный и данные отсутствуют.

Дублирующий ввод данных

Проверка уникальности данных является важным аспектом редактирования данных, чтобы гарантировать, что все предоставленные данные были введены только один раз. Это снижает вероятность повторных данных, которые могут исказить аналитические отчеты. См. пример ниже.

В таблице выше приведен пример данных с дублирующимися записями. См. Sr. No 1 и 4: Данные повторяются для двух разных записей с разными индексами (Index No.).

Выбросы

Часто в наборах данных обнаруживаются выбросы, которые, как описано выше, являются значениями, которые не очень хорошо соответствуют модели данных. Эти экстремальные значения можно найти на основе распределения точек данных из предыдущих серий данных или параллельных серий данных для того же набора данных. Значения можно считать ошибочными и требуют дальнейшего анализа для проверки и определения достоверности ответа. Смотрите пример ниже.

В таблице выше приведен пример экстремальных значений в наборе данных, также известных как выбросы. Смотрите сотрудников 2 и 6: данные расходятся с остальной частью таблицы.

Логические несоответствия

Логическая согласованность — это наличие логических связей и взаимозависимости между переменными. Это редактирование требует определенного понимания набора данных и способности выявлять ошибки в данных на основе предыдущих отчетов или информации. Этот тип редактирования данных используется для учета различий между полями данных или переменными. Смотрите пример ниже.

В таблице выше приведен пример логической несогласованности в наборе данных. См. строку 2: возраст Салима указан как 55 см, что нелогично и, следовательно, является ошибкой в ​​наборе данных.

Редактирование макросов

Существует два метода редактирования макросов: [7]

Метод агрегации

Этот метод применяется почти в каждом статистическом агентстве перед публикацией: проверка того, кажутся ли цифры, которые будут опубликованы, правдоподобными. Это достигается путем сравнения величин в таблицах публикации с теми же величинами в предыдущих публикациях. Если наблюдается необычное значение, процедура микроредактирования применяется к отдельным записям и полям, способствующим подозрительной величине. [6]

Метод распространения

Имеющиеся данные используются для характеристики распределения переменных . Затем все индивидуальные значения сравниваются с распределением. Записи, содержащие значения, которые можно считать необычными (учитывая распределение), являются кандидатами для дальнейшей проверки и, возможно, для редактирования. [9]

Автоматическое редактирование

При автоматическом редактировании записи редактируются компьютером без вмешательства человека. [10] Предварительные знания о значениях одной переменной или комбинации переменных могут быть сформулированы как набор правил редактирования, которые определяют или ограничивают допустимые значения.

Факторы, определяющие редактирование данных

Редактирование данных имеет свои ограничения, связанные с емкостью и ресурсами любого данного исследования. Эти детерминанты могут иметь положительное или отрицательное влияние на пост-анализ набора данных. Ниже приведены несколько детерминант редактирования данных. [8]

Доступные ресурсы: [8]

  • Время, выделенное на проект
  • Денежные и бюджетные ограничения

Доступное программное обеспечение: [8]

  • Инструменты, используемые для анализа данных
  • Доступные инструменты для выявления ошибок в наборе данных
  • Немедленная доступность программного обеспечения в зависимости от целей и задач данных

Источник данных: [8]

  • Ограничения респондентов в ответах в соответствии с ожиданиями
  • Отсутствующая информация от респондентов, которая не является легкодоступной
  • В больших массивах данных сложно поддерживать последующие действия.

Координация процедуры редактирования данных: [8]

  • Субъективные взгляды на набор данных
  • Разногласия между общими целями данных
  • Методы, используемые для обработки редактирования данных

Смотрите также

Примечания

  1. ^ ошибки, которые оказывают существенное влияние на показатели публикации
  2. ^ значения, которые не соответствуют модели данных

Ссылки

  1. ^ Фергюсон, Дания П. «ВВЕДЕНИЕ В ПРОЦЕСС РЕДАКТИРОВАНИЯ ДАННЫХ» (PDF) . unece.org/ .
  2. ^ "Домашняя страница Национального центра образовательной статистики (NCES), часть Министерства образования США". nces.ed.gov . Получено 2020-12-06 .
  3. ^ "ЕЭК ООН".
  4. ^ "Статистика: сила данных! Редактирование данных". www150.statcan.gc.ca .
  5. ^ Ваал, Тон де и др. «Справочник по редактированию и подстановке статистических данных». Издательство Wiley, 2011, стр. 15.
  6. ^ ab «Домашняя страница ЕЭК ООН». www.unece.org .
  7. ^ ab Waal, Ton de et al. «Справочник по редактированию и подстановке статистических данных». Издание Wiley, 2011, стр. 16.
  8. ^ abcdef SCAD. "SCAD". SCAD . Получено 2020-12-07 .
  9. ^ Бетлехем, Дж. «Прикладные методы обследования: статистическая перспектива». Издательство Wiley, 2009, стр. 205.
  10. ^ Ваал, Тон де и др. «Справочник по редактированию и подстановке статистических данных». Публикация Wiley
Взято с "https://en.wikipedia.org/w/index.php?title=Data_editing&oldid=1214865406"