Оригинальный автор(ы) | Андрей Гулин: [1] / Яндекс |
---|---|
Разработчик(и) | Участники Яндекса и CatBoost [2] |
Первоначальный выпуск | 18 июля 2017 г. ( 2017-07-18 ) | [3] [4]
Стабильный релиз | 1.2.3 [5] / 23 февраля 2024 г. ( 2024-02-23 ) |
Написано в | Python , R , C++ , Java |
Операционная система | Linux , MacOS , Windows |
Тип | Машинное обучение |
Лицензия | Лицензия Apache 2.0 |
Веб-сайт | catboost.ai |
CatBoost [6] — это библиотека программного обеспечения с открытым исходным кодом , разработанная Яндексом . Она предоставляет фреймворк градиентного бустинга , который, среди прочего, пытается решать категориальные функции с использованием альтернативы классическому алгоритму, основанной на перестановках. [7] Она работает на Linux , Windows , macOS и доступна в Python , [8] R , [9] а модели, созданные с помощью CatBoost, могут использоваться для прогнозирования в C++ , Java , [10] C# , Rust , Core ML , ONNX и PMML . Исходный код лицензирован по лицензии Apache и доступен на GitHub. [6]
Журнал InfoWorld наградил библиотеку премией «Лучшие инструменты машинного обучения» в 2017 году. [11] наряду с TensorFlow , Pytorch , XGBoost и 8 другими библиотеками.
Kaggle включил CatBoost в список наиболее часто используемых фреймворков машинного обучения (ML) в мире. Он вошел в топ-8 наиболее часто используемых фреймворков ML в опросе 2020 года [12] и в топ-7 наиболее часто используемых фреймворков ML в опросе 2021 года. [13]
По состоянию на апрель 2022 года CatBoost устанавливается около 100000 раз в день из репозитория PyPI [14]
CatBoost приобрел популярность по сравнению с другими алгоритмами градиентного усиления в первую очередь благодаря следующим особенностям [15]
В 2009 году Андрей Гулин разработал MatrixNet — фирменную библиотеку градиентного бустинга, которая использовалась в Яндексе для ранжирования результатов поиска. С 2009 года MatrixNet используется в различных проектах Яндекса, включая рекомендательные системы и прогноз погоды.
В 2014–2015 годах Андрей Гулин с командой исследователей начал новый проект Tensornet, направленный на решение проблемы «как работать с категориальными данными ». Результатом стало несколько собственных библиотек Gradient Boosting с различными подходами к работе с категориальными данными.
В 2016 году команда Machine Learning Infrastructure под руководством Анны Дорогуш начала работу над Gradient Boosting в Яндексе, включая Matrixnet и Tensornet. Они реализовали и выложили в открытый доступ следующую версию библиотеки Gradient Boosting под названием CatBoost, которая поддерживает категориальные и текстовые данные, обучение на GPU, анализ моделей, инструменты визуализации.
CatBoost был открыт в июле 2017 года и в настоящее время находится в стадии активной разработки в Яндексе и сообществе разработчиков ПО с открытым исходным кодом.