Дискретизация непрерывных признаков

В статистике и машинном обучении дискретизация относится к процессу преобразования или разбиения непрерывных атрибутов , признаков или переменных на дискретизированные или номинальные атрибуты/признаки/переменные/ интервалы . Это может быть полезно при создании функций массы вероятности — формально, при оценке плотности . Это форма дискретизации в целом, а также биннинга , как при построении гистограммы . Всякий раз, когда непрерывные данные дискретизируются, всегда есть некоторая величина ошибки дискретизации . Цель состоит в том, чтобы уменьшить величину до уровня, который считается незначительным для целей моделирования под рукой.

Обычно данные разделяются на разделы K одинаковой длины/ширины (равные интервалы) или K% от общего объема данных (равные частоты). [1]

Механизмы дискретизации непрерывных данных включают метод MDL Файяда и Ирани [2], который использует взаимную информацию для рекурсивного определения лучших бинов, CAIM, CACC, Ameva и многие другие [3].

Известно, что многие алгоритмы машинного обучения создают лучшие модели за счет дискретизации непрерывных атрибутов. [4]

Программное обеспечение

Это неполный список программного обеспечения, реализующего алгоритм MDL.

  • Инструмент discretize4crf, предназначенный для работы с популярными реализациями CRF ( C++ )
  • mdlp в пакете R дискретизация
  • Дискретизация в пакете R RWeka

Смотрите также

Ссылки

  1. ^ Кларк, Э. Дж.; Бартон, Б. А. (2000). «Энтропия и дискретизация MDL непрерывных переменных для байесовских сетей доверия» (PDF) . Международный журнал интеллектуальных систем . 15 : 61– 92. doi :10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Получено 10 июля 2008 г. .
  2. ^ Файяд, Усама М.; Ирани, Кеки Б. (1993) «Многоинтервальная дискретизация непрерывных атрибутов для обучения классификации» (PDF) . 29 июля 2023 г. hdl :2014/35171., Труды 13-й Международной объединенной конференции по искусственному интеллекту (Q334 .I571 1993), стр. 1022-1027
  3. ^ Догерти, Дж.; Кохави, Р.; Сахами, М. (1995). «Управляемая и неуправляемая дискретизация непрерывных признаков». В A. Prieditis & SJ Russell, ред. Работа . Морган Кауфманн, стр. 194-202
  4. ^ Kotsiantis, S.; Kanellopoulos, D (2006). «Методы дискретизации: недавний обзор». GESTS International Transactions on Computer Science and Engineering . 32 (1): 47– 58. CiteSeerX 10.1.1.109.3084 . 


Retrieved from "https://en.wikipedia.org/w/index.php?title=Discretization_of_continuous_features&oldid=1196518329"