Дискретизация непрерывных признаков

В статистике и машинном обучении дискретизация относится к процессу преобразования или разбиения непрерывных атрибутов , признаков или переменных на дискретизированные или номинальные атрибуты/признаки/переменные/ интервалы . Это может быть полезно при создании функций массы вероятности — формально, при оценке плотности . Это форма дискретизации в целом, а также биннинга , как при построении гистограммы . Всякий раз, когда непрерывные данные дискретизируются, всегда есть некоторая величина ошибки дискретизации . Цель состоит в том, чтобы уменьшить величину до уровня, который считается незначительным для целей моделирования под рукой.

Обычно данные разделяются на разделы K одинаковой длины/ширины (равные интервалы) или K% от общего объема данных (равные частоты). ^[1]

Механизмы дискретизации непрерывных данных включают метод MDL Файяда и Ирани ^[2], который использует взаимную информацию для рекурсивного определения лучших бинов, CAIM, CACC, Ameva и многие другие ^[3].

Известно, что многие алгоритмы машинного обучения создают лучшие модели за счет дискретизации непрерывных атрибутов. ^[4]

Программное обеспечение

Это неполный список программного обеспечения, реализующего алгоритм MDL.

Инструмент discretize4crf, предназначенный для работы с популярными реализациями CRF ( C++ )
mdlp в пакете R дискретизация
Дискретизация в пакете R RWeka

Смотрите также

Ссылки

^ Кларк, Э. Дж.; Бартон, Б. А. (2000). «Энтропия и дискретизация MDL непрерывных переменных для байесовских сетей доверия» (PDF) . Международный журнал интеллектуальных систем . 15 : 61– 92. doi :10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Получено 10 июля 2008 г. .
^ Файяд, Усама М.; Ирани, Кеки Б. (1993) «Многоинтервальная дискретизация непрерывных атрибутов для обучения классификации» (PDF) . 29 июля 2023 г. hdl :2014/35171., Труды 13-й Международной объединенной конференции по искусственному интеллекту (Q334 .I571 1993), стр. 1022-1027
^ Догерти, Дж.; Кохави, Р.; Сахами, М. (1995). «Управляемая и неуправляемая дискретизация непрерывных признаков». В A. Prieditis & SJ Russell, ред. Работа . Морган Кауфманн, стр. 194-202
^ Kotsiantis, S.; Kanellopoulos, D (2006). «Методы дискретизации: недавний обзор». GESTS International Transactions on Computer Science and Engineering . 32 (1): 47– 58. CiteSeerX 10.1.1.109.3084 .

Эта статья, связанная со статистикой, является заглушкой . Вы можете помочь Википедии, расширив ее.

[clarke-1] Кларк, Э. Дж.; Бартон, Б. А. (2000). «Энтропия и дискретизация MDL непрерывных переменных для байесовских сетей доверия» (PDF) . Международный журнал интеллектуальных систем . 15 : 61– 92. doi :10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Получено 10 июля 2008 г. .

[2] Файяд, Усама М.; Ирани, Кеки Б. (1993) «Многоинтервальная дискретизация непрерывных атрибутов для обучения классификации» (PDF) . 29 июля 2023 г. hdl :2014/35171., Труды 13-й Международной объединенной конференции по искусственному интеллекту (Q334 .I571 1993), стр. 1022-1027

[3] Догерти, Дж.; Кохави, Р.; Сахами, М. (1995). «Управляемая и неуправляемая дискретизация непрерывных признаков». В A. Prieditis & SJ Russell, ред. Работа . Морган Кауфманн, стр. 194-202

[4] Kotsiantis, S.; Kanellopoulos, D (2006). «Методы дискретизации: недавний обзор». GESTS International Transactions on Computer Science and Engineering . 32 (1): 47– 58. CiteSeerX 10.1.1.109.3084 .