Анализ дерева элементов ( ITA ) — это метод анализа данных , который позволяет построить иерархическую структуру элементов анкеты или теста из наблюдаемых шаблонов ответов.
Предположим, что у нас есть анкета с m элементами, и что субъекты могут ответить положительно (1) или отрицательно (0) на каждый из этих элементов, т. е. элементы являются дихотомическими . Если n субъектов отвечают на элементы, это приводит к двоичной матрице данных D
с m столбцами и n строками. Типичными примерами этого формата данных являются тестовые элементы, которые могут быть решены (1) или провалены (0) субъектами. Другими типичными примерами являются анкеты, где элементы являются утверждениями, с которыми субъекты могут согласиться (1) или не согласиться (0).
В зависимости от содержания элементов возможно, что ответ субъекта на элемент j определяет его или ее ответы на другие элементы. Например, возможно, что каждый субъект, который согласен с элементом j, также согласится с элементом i . В этом случае мы говорим, что элемент j подразумевает элемент i (краткий ). Целью ITA является выявление таких детерминированных импликаций из набора данных D.
Первоначально ИТА был разработан Ван Леуве в 1974 году. [1] Результатом его алгоритма , который мы далее будем называть Классическим ИТА , является логически непротиворечивый набор импликаций . Логически непротиворечивый означает, что если i подразумевает j , а j подразумевает k, то i подразумевает k для каждой тройки i , j , k элементов. Таким образом, результатом ИТА является рефлексивное и транзитивное отношение на наборе элементов, т. е. квазипорядок на элементах.
Другой алгоритм для выполнения ИТА был предложен в Schrepp (1999) . Этот алгоритм называется Индуктивным ИТА .
Классический ИТА и индуктивный ИТА оба строят квазипорядок на наборе элементов с помощью разведочного анализа данных . Но оба метода используют разный алгоритм для построения этого квазипорядка. Для заданного набора данных результирующие квазипорядки от классического и индуктивного ИТА обычно будут отличаться.
Подробное описание алгоритмов, используемых в классическом и индуктивном ИТА, можно найти в Schrepp (2003) или Schrepp (2006) [1]. В недавней статье (Sargin & Ünlü, 2009) предложены некоторые модификации алгоритма индуктивного ИТА, которые улучшают способность этого метода обнаруживать правильные импликации из данных (особенно в случае более высоких показателей случайных ошибок ответа).
ITA относится к группе методов анализа данных, называемых булевым анализом анкет . Булев анализ был введен Фламентом в 1976 году. [2] Целью булева анализа является обнаружение детерминированных зависимостей (формул из булевой логики, связывающих элементы, как, например , , и ) между элементами анкеты или теста. Со времени основной работы Фламента (1976) было разработано несколько различных методов булева анализа. См., например, Van Buggenhaut и Degreef (1987) , Duquenne (1987) или Theuns (1994) . Эти методы разделяют цель вывести детерминированные зависимости между элементами анкеты из данных, но различаются алгоритмами для достижения этой цели. Сравнение ITA с другими методами булева анализа данных можно найти в Schrepp (2003) .
Существует несколько исследовательских работ, описывающих конкретные приложения анализа дерева элементов. Held и Korossy (1998) анализируют последствия для набора алгебраических задач с помощью классического ITA. Анализ дерева элементов также используется в ряде исследований социальных наук для получения представления о структуре дихотомических данных. Например, в Bart и Krus (1973) предшественник ITA используется для установления иерархического порядка элементов, описывающих социально неприемлемое поведение. В Janssens (1999) метод булевого анализа используется для исследования процесса интеграции меньшинств в систему ценностей доминирующей культуры. Schrepp [3] описывает несколько приложений индуктивного ITA в анализе зависимостей между элементами анкет по социальным наукам.
Чтобы показать возможности анализа набора данных ITA, мы анализируем утверждения вопроса 4 Международной программы социальных исследований (ISSSP) за 1995 год с помощью индуктивного и классического ITA. ISSSP является продолжающейся ежегодной программой кросс-национального сотрудничества в проведении опросов, охватывающих важные темы для исследований в области социальных наук. Программа проводит каждый год один опрос с сопоставимыми вопросами в каждой из участвующих стран. Темой опроса 1995 года была национальная идентичность . Мы анализируем результаты вопроса 4 для набора данных Западной Германии . Утверждение для вопроса 4 было следующим:
Некоторые говорят, что следующие вещи важны для того, чтобы быть настоящим немцем. Другие говорят, что они не важны. Насколько, по-вашему, важно каждое из следующих :
1. родиться в Германии
2. иметь немецкое гражданство
3. прожить в Германии большую часть своей жизни
4. уметь говорить по-немецки
5. быть христианином
6. уважать политические институты Германии
7. чувствовать себя немцем
У испытуемых были варианты ответов: «Очень важно» , «Важно» , «Не очень важно» , «Совсем не важно » и «Не могу выбрать ответ на утверждения». Чтобы применить ИТА к этому набору данных, мы изменили категории ответов.
«Очень важно» и «Важно» кодируются как 1. «Не очень важно» и «Совсем не важно» кодируются как 0. «Не могу выбрать» обрабатывалось как отсутствующие данные.
На следующем рисунке показаны полученные квазипорядки из индуктивного ИТА и из классического ИТА.
Программа ITA 2.0 реализует как классический, так и индуктивный ITA. Программа доступна на [2]. Краткая документация программы доступна в [3].