спаСи

Библиотека программного обеспечения для обработки естественного языка
спаСи
Оригинальный автор(ы)Мэтью Хоннибал
Разработчик(и)Взрыв ИИ, разный
Первоначальный выпускФевраль 2015 г. ; 9 лет назад [1] ( 2015-02 )
Стабильный релиз
3.8.3 [2]  / 11 декабря 2024 г. ; 28 дней назад ( 11 декабря 2024 )
Репозиторий
  • github.com/explosion/spaCy
Написано вПитон , Cython
Операционная системаLinux , Windows , macOS , OS X
ПлатформаКроссплатформенный
ТипОбработка естественного языка
ЛицензияЛицензия Массачусетского технологического института
Веб-сайтспейси.ио

spaCy ( / s p ˈ s / spay- SEE ) — библиотека программного обеспечения с открытым исходным кодом для расширенной обработки естественного языка , написанная на языках программирования Python и Cython . [3] [4] Библиотека публикуется по лицензии MIT , а ее основными разработчиками являются Мэтью Хоннибал и Инес Монтани, основатели компании-разработчика программного обеспечения Explosion.

В отличие от NLTK , который широко используется для обучения и исследований, spaCy фокусируется на предоставлении программного обеспечения для использования в производстве. [5] [6] spaCy также поддерживает рабочие процессы глубокого обучения , которые позволяют подключать статистические модели, обученные популярными библиотеками машинного обучения, такими как TensorFlow , PyTorch или MXNet, через собственную библиотеку машинного обучения Thinc. [7] [8] Используя Thinc в качестве своего бэкэнда, spaCy предлагает сверточные модели нейронных сетей для маркировки частей речи , анализа зависимостей , категоризации текста и распознавания именованных сущностей (NER) . Готовые статистические модели нейронных сетей для выполнения этих задач доступны для 23 языков, включая английский, португальский, испанский, русский и китайский, а также есть многоязычная модель NER . Дополнительная поддержка токенизации для более чем 65 языков позволяет пользователям обучать пользовательские модели на собственных наборах данных. [9]

История

  • Версия 1.0 была выпущена 19 октября 2016 года и включала предварительную поддержку рабочих процессов глубокого обучения путем поддержки пользовательских конвейеров обработки. [10] Она также включала сопоставление правил, которое поддерживало аннотации сущностей , и официально задокументированный API обучения.
  • Версия 2.0 была выпущена 7 ноября 2017 года и представила модели сверточных нейронных сетей для 7 различных языков. [11] Она также поддерживала пользовательские компоненты конвейера обработки и атрибуты расширения, а также имела встроенный обучаемый компонент классификации текста .
  • Версия 3.0 была выпущена 1 февраля 2021 года и представила современные конвейеры на основе трансформатора . [12] Она также представила новую систему конфигурации и рабочий процесс обучения, а также подсказки по типам и шаблоны проектов. В этой версии прекращена поддержка Python 2 .

Основные характеристики

Расширения и визуализаторы

Визуализация дерева анализа зависимостей, созданная с помощью визуализатора displaCy
Визуализация дерева анализа зависимостей , созданная с помощью визуализатора displaCy

spaCy поставляется с несколькими расширениями и визуализациями, которые доступны в виде бесплатных библиотек с открытым исходным кодом :

Ссылки

  1. ^ "Представляем spaCy". explosion.ai . Получено 2016-12-18 .
  2. ^ "Release 3.8.3". 11 декабря 2024 г. Получено 30 декабря 2024 г.
  3. ^ Чой и др. (2015). Это зависит: сравнение анализаторов зависимостей с использованием веб-инструмента оценки.
  4. ^ «Новый искусственный интеллект Google не может понять эти предложения. А вы можете?». Washington Post . Получено 18 декабря 2016 г.
  5. ^ "Факты и цифры - spaCy". spacy.io . Получено 2020-04-04 .
  6. ^ Берд, Стивен; Кляйн, Эван; Лопер, Эдвард; Болдридж, Джейсон (2008). «Многопрофильное обучение с использованием набора инструментов естественного языка» (PDF) . Труды Третьего семинара по проблемам преподавания компьютерной лингвистики, ACL : 62. doi : 10.3115/1627306.1627317 . ISBN 9781932432145. S2CID  16932735.
  7. ^ "PyTorch, TensorFlow & MXNet". thinc.ai . Получено 2020-04-04 .
  8. ^ "взрыв/тонкий" . Гитхаб . Проверено 30 декабря 2016 г.
  9. ^ "Модели и языки | Документация по использованию spaCy". spacy.io . Получено 10.03.2020 .
  10. ^ "explosion/spaCy". GitHub . Получено 2021-02-08 .
  11. ^ "explosion/spaCy". GitHub . Получено 2021-02-08 .
  12. ^ "explosion/spaCy". GitHub . Получено 2021-02-08 .
  13. ^ "Модели и языки - spaCy". spacy.io . Получено 2021-02-08 .
  14. ^ "Модели и языки | Документация по использованию spaCy". spacy.io . Получено 2021-02-08 .
  15. ^ "Тесты | Документация по использованию spaCy". spacy.io . Получено 2021-02-08 .
  16. ^ Траск и др. (2015). sense2vec — быстрый и точный метод устранения неоднозначности смысла слов в нейронных встраиваниях слов.
  • Официальный сайт
  • Реализация библиотеки Spacy
Взято с "https://en.wikipedia.org/w/index.php?title=SpaCy&oldid=1262357224"