Обучение на основе контрастных наборов — это форма обучения на основе ассоциативных правил , которая стремится выявить значимые различия между отдельными группами путем обратного проектирования ключевых предикторов, которые идентифицируют каждую конкретную группу. Например, имея набор атрибутов для пула студентов (помеченных по типу степени), обучение на основе контрастных наборов будет выявлять контрастные черты между студентами, стремящимися получить степень бакалавра, и теми, кто работает над получением степени доктора наук.
Распространенной практикой в интеллектуальном анализе данных является классификация , рассмотрение атрибутов объекта или ситуации и предположение о том, к какой категории относится наблюдаемый элемент. По мере изучения новых доказательств (обычно путем подачи обучающего набора в обучающий алгоритм ) эти предположения уточняются и улучшаются. Обучение на контрастном наборе работает в противоположном направлении. В то время как классификаторы считывают набор данных и собирают информацию, которая используется для размещения новых данных в ряд дискретных категорий, обучение на контрастном наборе берет категорию, к которой принадлежит элемент, и пытается провести обратную разработку статистических доказательств, которые идентифицируют элемент как члена класса. То есть, обучающиеся на контрастном наборе ищут правила, связывающие значения атрибутов с изменениями в распределении класса. [1] Они стремятся определить ключевые предикторы, которые противопоставляют одну классификацию другой.
Например, инженер аэрокосмической отрасли может записывать данные об испытательных запусках новой ракеты. Измерения будут проводиться с регулярными интервалами в течение всего запуска, отмечая такие факторы, как траектория ракеты, рабочие температуры, внешнее давление и т. д. Если запуск ракеты не удается после ряда успешных испытаний, инженер может использовать обучение на контрастном наборе, чтобы различать успешные и неудачные испытания. Обучение на контрастном наборе создаст набор правил ассоциации, которые при применении укажут ключевые предикторы каждого неудачного испытания по сравнению с успешными (температура была слишком высокой, давление ветра было слишком высоким и т. д.).
Обучение на контрастном наборе является формой обучения на основе ассоциативных правил . [2] Обучающиеся на основе ассоциативных правил обычно предлагают правила, связывающие атрибуты, которые обычно встречаются вместе в обучающем наборе (например, люди, обучающиеся по четырехлетним программам и проходящие полную учебную нагрузку, как правило, также живут недалеко от кампуса). Вместо того, чтобы находить правила, описывающие текущую ситуацию, обучающиеся на контрастном наборе ищут правила, которые существенно различаются по своему распределению между группами (и, таким образом, могут использоваться в качестве предикторов для этих групп). [3] Например, обучающийся на контрастном наборе может спросить: «Каковы ключевые идентификаторы человека со степенью бакалавра или человека со степенью доктора философии, и чем отличаются люди со степенью доктора философии и бакалавра?»
Стандартные алгоритмы классификаторов , такие как C4.5 , не имеют понятия о важности класса (то есть они не знают, является ли класс «хорошим» или «плохим»). Такие обучающиеся не могут предвзято или фильтровать свои прогнозы в сторону определенных желаемых классов. Поскольку целью обучения на контрастных наборах является обнаружение значимых различий между группами, полезно иметь возможность нацеливать изученные правила на определенные классификации. Несколько обучающихся на контрастных наборах, такие как MINWAL [4] или семейство алгоритмов TAR, [5] [6] [7] назначают веса каждому классу, чтобы сосредоточить изученные теории на результатах, которые представляют интерес для определенной аудитории. Таким образом, обучение на контрастных наборах можно рассматривать как форму обучения на взвешенных классах. [8]
Различия между стандартной классификацией, обучением по ассоциативным правилам и обучением по контрастным наборам можно проиллюстрировать с помощью простой метафоры супермаркета. В следующем небольшом наборе данных каждая строка представляет собой транзакцию в супермаркете, а каждая «1» указывает на то, что товар был куплен («0» указывает на то, что товар не был куплен):
Гамбургер | Картофель | Фуа-гра | Лук | шампанское | Цель покупки |
---|---|---|---|---|---|
1 | 1 | 0 | 1 | 0 | Приготовление пищи |
1 | 1 | 0 | 1 | 0 | Приготовление пищи |
0 | 0 | 1 | 0 | 1 | Годовщина |
1 | 1 | 0 | 1 | 0 | Приготовление пищи |
1 | 1 | 0 | 0 | 1 | Братская вечеринка |
Учитывая эти данные,
Лечение — это форма обучения с использованием набора взвешенных контрастов, при котором берется одна желательная группа и противопоставляется оставшимся нежелательным группам (уровень желательности представлен взвешенными классами). [5] Полученное «лечение» предполагает набор правил, применение которых приведет к желаемому результату.
Обучение лечению отличается от стандартного обучения с использованием контрастного набора следующими ограничениями:
Этот акцент на простоте является важной целью для обучающихся по методу лечения. Обучение по методу лечения стремится к наименьшему изменению, которое оказывает наибольшее влияние на распределение классов. [8]
Концептуально, обучающиеся на основе лечения исследуют все возможные подмножества диапазона значений для всех атрибутов. Такой поиск часто неосуществим на практике, поэтому обучение на основе лечения часто фокусируется на быстром сокращении и игнорировании диапазонов атрибутов, которые при применении приводят к распределению классов, где желаемый класс находится в меньшинстве. [7]
Следующий пример демонстрирует вывод обучающего метода TAR3 на наборе данных о жилье из города Бостон (нетривиальный публичный набор данных с более чем 500 примерами). В этом наборе данных для каждого дома собирается ряд факторов, и каждый дом классифицируется в соответствии с его качеством (низкое, средне-низкое, средне-высокое и высокое). Желаемый класс устанавливается как «высокий», а все остальные классы объединяются как нежелательные.
Результат работы обучающегося по методике лечения выглядит следующим образом:
Базовое распределение классов:низкий: 29%медлоу: 29%среднийвысокий: 21%высокий: 21%Предлагаемое лечение: [PTRATIO=[12,6..16), RM=[6,7..9,78)]Новое распределение классов:низкий: 0%медлоу: 0%среднийвысокий: 3%высокий: 97%
Без примененных обработок (правил) желаемый класс представляет только 21% распределения классов. Однако, если отфильтровать набор данных для домов с 6,7 до 9,78 комнат и соотношением родителей и учителей в районе 12,6 к 16, то 97% оставшихся примеров попадают в желаемый класс (высококачественные дома).
Существует ряд алгоритмов, которые выполняют обучение контрастных наборов. В следующих подразделах описываются два примера.
Обучающий элемент STUCCO contrast set [1] [3] рассматривает задачу обучения на основе наборов контрастов как задачу поиска по дереву , где корневой узел дерева — пустой набор контрастов. Дочерние элементы добавляются путем специализации набора с помощью дополнительных элементов, выбранных с помощью канонического упорядочения атрибутов (чтобы избежать посещения одних и тех же узлов дважды). Дочерние элементы формируются путем добавления терминов, которые следуют за всеми существующими терминами в заданном порядке. Сформированное дерево ищется в ширину. Учитывая узлы на каждом уровне, набор данных сканируется, и поддержка подсчитывается для каждой группы. Затем каждый узел проверяется, чтобы определить, является ли он значимым и большим, следует ли его обрезать и следует ли генерировать новых дочерних элементов. После того, как все значимые наборы контрастов найдены, постпроцессор выбирает подмножество для показа пользователю — сначала показываются результаты низкого порядка, более простые, а затем результаты более высокого порядка, которые «удивительны и существенно отличаются » . [3]
Расчет поддержки происходит из проверки нулевой гипотезы о том, что поддержка набора контрастов одинакова для всех групп (т. е. что поддержка набора контрастов не зависит от членства в группе ). Подсчет поддержки для каждой группы — это значение частоты, которое можно проанализировать в таблице сопряженности, где каждая строка представляет истинное значение набора контрастов, а каждая переменная столбца указывает частоту членства в группе. Если есть разница в пропорциях между частотами набора контрастов и частотами нулевой гипотезы, алгоритм должен затем определить, представляют ли различия в пропорциях связь между переменными или их можно приписать случайным причинам. Это можно определить с помощью теста хи-квадрат, сравнивая наблюдаемое количество частот с ожидаемым количеством.
Узлы удаляются из дерева, когда все специализации узла никогда не могут привести к значительному и большому набору контрастов. Решение об удалении принимается на основе:
Обучающий алгоритм TAR3 [6] [9] на основе набора взвешенных контрастов основан на двух фундаментальных концепциях — подъеме и поддержке набора правил.
Подъем набора правил — это изменение, которое некоторое решение вносит в набор примеров после наложения этого решения (т. е. как распределение классов смещается в ответ на наложение правила). TAR3 ищет наименьший набор правил, который вызывает наибольшие изменения в сумме весов, прикрепленных к каждому классу, умноженной на частоту, с которой встречается каждый класс. Подъем вычисляется путем деления оценки набора, в котором наложен набор правил, на оценку базового набора (т. е. правила не применяются). Обратите внимание, что, обращая функцию оценки подъема, ученик TAR3 может также выбрать оставшиеся классы и отклонить целевой класс.
Проблематично полагаться только на подъем набора правил. Неправильный или вводящий в заблуждение шум данных, если он коррелирует с неудачными примерами, может привести к переобучению набора правил. Такая переобученная модель может иметь большую оценку подъема, но она неточно отражает преобладающие условия в наборе данных. Чтобы избежать переобучения, TAR3 использует порог поддержки и отклоняет все правила, которые попадают на неправильную сторону этого порога. При наличии целевого класса порог поддержки представляет собой введенное пользователем значение (обычно 0,2), которое сравнивается с отношением частоты целевого класса, когда набор правил был применен, к частоте этого класса в общем наборе данных. TAR3 отклоняет все наборы правил с поддержкой ниже этого порога.
Требуя как высокого подъема, так и высокого значения поддержки, TAR3 не только возвращает идеальные наборы правил, но и отдает предпочтение меньшим наборам правил. Чем меньше правил принято, тем больше доказательств, которые будут поддерживать эти правила.
Алгоритм TAR3 создает наборы правил только из диапазонов значений атрибутов с высоким эвристическим значением. Алгоритм определяет, какие диапазоны использовать, сначала определяя оценку подъема диапазонов значений каждого атрибута. Затем эти индивидуальные оценки сортируются и преобразуются в кумулятивное распределение вероятностей. TAR3 случайным образом выбирает значения из этого распределения, что означает, что диапазоны с низкими оценками вряд ли будут выбраны. Для создания набора правил-кандидатов выбираются и объединяются несколько диапазонов. Затем эти наборы правил-кандидатов оцениваются и сортируются. Если после определенного пользователем количества раундов улучшения не наблюдается, алгоритм завершает работу и возвращает наборы правил с наивысшими оценками.