В области статистической теории обучения матричная регуляризация обобщает понятия векторной регуляризации на случаи, когда объектом обучения является матрица. Цель регуляризации — обеспечить соблюдение условий, например, разреженности или гладкости, которые могут давать стабильные предсказательные функции. Например, в более общей векторной структуре регуляризация Тихонова оптимизирует по для нахождения вектора , который является стабильным решением задачи регрессии. Когда система описывается матрицей, а не вектором, эту задачу можно записать как где векторная норма, обеспечивающая штраф регуляризации на , была расширена до матричной нормы на .
Регуляризация матриц имеет приложения в матричном дополнении , многомерной регрессии и многозадачном обучении . Идеи отбора признаков и групп также могут быть распространены на матрицы, и их можно обобщить на непараметрический случай многоядерного обучения .
Рассмотрим матрицу, которую нужно выучить из набора примеров, , где переходит из в , и переходит из в . Пусть каждая входная матрица будет , и пусть будет размером . Общую модель для вывода можно представить как , где скалярное произведение является скалярным произведением Фробениуса . Для различных приложений матрицы будут иметь разные формы, [1] но для каждого из них задача оптимизации для вывода может быть записана как , где определяет эмпирическую ошибку для заданного , а является штрафом за регуляризацию матрицы. Функция обычно выбирается выпуклой и часто выбирается для обеспечения разреженности (с использованием -норм) и/или гладкости (с использованием -норм). Наконец, находится в пространстве матриц с скалярным произведением Фробениуса .
В задаче завершения матрицы матрица принимает вид где и являются каноническим базисом в и . В этом случае роль внутреннего произведения Фробениуса заключается в выборе отдельных элементов из матрицы . Таким образом, на выходе получается выборка записей из матрицы .
Проблема реконструкции из небольшого набора выборочных записей возможна только при определенных ограничениях на матрицу, и эти ограничения могут быть усилены функцией регуляризации. Например, можно предположить, что имеет низкий ранг, в этом случае штраф за регуляризацию может принять форму ядерной нормы. [2] где , с от до , являются сингулярными значениями .
Модели, используемые в многомерной регрессии, параметризуются матрицей коэффициентов. В приведенном выше внутреннем произведении Фробениуса каждая матрица такова , что выход внутреннего произведения является скалярным произведением одной строки входных данных с одним столбцом матрицы коэффициентов. Знакомая форма таких моделей —
Многие из векторных норм, используемых в регрессии с одной переменной, могут быть расширены на многомерный случай. Одним из примеров является квадрат нормы Фробениуса, которую можно рассматривать как -норму , действующую либо по входу, либо на сингулярные значения матрицы:
В многомерном случае эффект регуляризации с нормой Фробениуса такой же, как и в векторном случае; очень сложные модели будут иметь большие нормы и, таким образом, будут сильнее наказаны.
Настройка для многозадачного обучения почти такая же, как настройка для многомерной регрессии. Основное отличие в том, что входные переменные также индексируются по задачам (столбцы ). Тогда представление с внутренним произведением Фробениуса будет
Роль матричной регуляризации в этой настройке может быть такой же, как и в многомерной регрессии, но матричные нормы также могут использоваться для связывания задач обучения между задачами. В частности, обратите внимание, что для задачи оптимизации решения, соответствующие каждому столбцу, разъединены. То есть одно и то же решение может быть найдено путем решения совместной задачи или путем решения изолированной задачи регрессии для каждого столбца. Задачи могут быть связаны путем добавления дополнительного штрафа за регуляризацию к ковариации решений , где моделирует взаимосвязь между задачами. Эту схему можно использовать как для обеспечения сходства решений между задачами, так и для изучения конкретной структуры сходства задач путем чередования оптимизаций и . [3] Когда известно, что взаимосвязь между задачами лежит на графике, матрица Лапласа графа может использоваться для связывания задач обучения.
Регуляризация с помощью спектральной фильтрации использовалась для поиска устойчивых решений таких проблем, как те, что обсуждались выше, путем решения некорректных матричных инверсий (см., например, Фильтрующую функцию для регуляризации Тихонова ). Во многих случаях функция регуляризации действует на вход (или ядро), чтобы гарантировать ограниченную обратную матрицу путем устранения малых сингулярных значений, но также может быть полезно иметь спектральные нормы, которые действуют на матрицу, которая должна быть изучена.
Существует ряд матричных норм, которые действуют на сингулярные значения матрицы. Часто используемые примеры включают p-нормы Шаттена , где p = 1 или 2. Например, регуляризация матрицы с 1-нормой Шаттена, также называемой ядерной нормой, может использоваться для обеспечения разреженности в спектре матрицы. Это использовалось в контексте завершения матрицы, когда предполагается, что рассматриваемая матрица имеет ограниченный ранг. [2] В этом случае задача оптимизации становится:
Спектральная регуляризация также используется для принудительного применения матрицы коэффициентов редуцированного ранга в многомерной регрессии. [4] В этом случае матрицу коэффициентов редуцированного ранга можно найти, сохранив только верхние сингулярные значения, но ее можно расширить, чтобы сохранить любой редуцированный набор сингулярных значений и векторов.
Разреженная оптимизация стала предметом большого исследовательского интереса как способ поиска решений, зависящих от небольшого числа переменных (см., например, метод Лассо ). В принципе, разреженность по входу может быть усилена путем штрафования по -норме матрицы по входу, но -норма не является выпуклой. На практике это может быть реализовано путем выпуклой релаксации к -норме. В то время как регуляризация по входу с -нормой найдет решения с небольшим числом ненулевых элементов, применение -нормы к различным группам переменных может усилить структуру в разреженности решений. [5]
Самый простой пример структурированной разреженности использует норму с и :
Например, норма используется в многозадачном обучении для группировки признаков по задачам, так что все элементы в заданной строке матрицы коэффициентов могут быть принудительно сведены к нулю как группа. [6] Эффект группировки достигается путем взятия -нормы каждой строки, а затем взятия общего штрафа как суммы этих построчных норм. Эта регуляризация приводит к строкам, которые будут стремиться быть всеми нулями, или плотными. Тот же тип регуляризации может быть использован для обеспечения разреженности по столбцам, взяв -нормы каждого столбца.
В более общем смысле норму можно применять к произвольным группам переменных: где индекс относится к группам переменных и указывает мощность группы .
Алгоритмы для решения этих проблем разреженности групп расширяют более известные методы Лассо и группового Лассо, допуская перекрывающиеся группы, например, и были реализованы с помощью методов поиска совпадений : [7] и методов проксимального градиента . [8] Записывая проксимальный градиент относительно заданного коэффициента, , можно увидеть, что эта норма обеспечивает мягкий порог по группе [1], где — индикаторная функция для групповых норм .
Таким образом, используя нормы, можно легко обеспечить структуру в разреженной матрице либо по строкам, либо по столбцам, либо в произвольных блоках. Например, применяя групповые нормы к блокам в многомерной или многозадачной регрессии, можно найти группы входных и выходных переменных, такие, что определенные подмножества выходных переменных (столбцы в матрице ) будут зависеть от того же разреженного набора входных переменных.
Идеи структурированной разреженности и выбора признаков можно распространить на непараметрический случай обучения с несколькими ядрами . [9] Это может быть полезно, когда есть несколько типов входных данных (например, цвет и текстура) с различными подходящими ядрами для каждого из них или когда подходящее ядро неизвестно. Если есть два ядра, например, с картами признаков и , которые лежат в соответствующих воспроизводящих ядрах гильбертовых пространств , то большее пространство, , может быть создано как сумма двух пространств: предполагая линейную независимость в и . В этом случае -норма снова является суммой норм:
Таким образом, выбрав функцию регуляризации матрицы в качестве этого типа нормы, можно найти решение, которое является разреженным в терминах используемых ядер, но плотным в коэффициентах каждого используемого ядра. Обучение с несколькими ядрами также может использоваться как форма нелинейного выбора переменных или как метод агрегации модели (например, путем взятия суммы квадратов норм и ослабления ограничений разреженности). Например, каждое ядро может быть принято за гауссово ядро с разной шириной.