В статистике и машинном обучении дискретизация относится к процессу преобразования или разбиения непрерывных атрибутов , признаков или переменных на дискретизированные или номинальные атрибуты/признаки/переменные/ интервалы . Это может быть полезно при создании функций массы вероятности — формально, при оценке плотности . Это форма дискретизации в целом, а также биннинга , как при построении гистограммы . Всякий раз, когда непрерывные данные дискретизируются, всегда есть некоторая величина ошибки дискретизации . Цель состоит в том, чтобы уменьшить величину до уровня, который считается незначительным для целей моделирования под рукой.
Обычно данные разделяются на разделы K одинаковой длины/ширины (равные интервалы) или K% от общего объема данных (равные частоты). [1]
Механизмы дискретизации непрерывных данных включают метод MDL Файяда и Ирани [2], который использует взаимную информацию для рекурсивного определения лучших бинов, CAIM, CACC, Ameva и многие другие [3].
Известно, что многие алгоритмы машинного обучения создают лучшие модели за счет дискретизации непрерывных атрибутов. [4]
Это неполный список программного обеспечения, реализующего алгоритм MDL.