глубоко посаженный

Стартап по обработке естественного языка на немецком языке
глубоко посаженный
Тип компанииЧастный
ПромышленностьОбработка естественного языка
Основан22 июня 2018 г. ; 6 лет назад ( 2018-06-22 )
Основатели
  • Милош Русич
  • Мальте Питч
  • Тимо Мёллер
Штаб-квартира,
ПродукцияСтог сена, глубоко посаженное облако
Количество сотрудников
> 50
Веб-сайтwww.deepset.ai

deepset — поставщик корпоративного программного обеспечения, предоставляющий разработчикам инструменты для создания готовых к производству систем обработки естественного языка (NLP) . Компания была основана в 2018 году в Берлине Милошем Русичем, Мальте Питчем и Тимо Мёллером. [1] deepset является автором и поддерживает программное обеспечение с открытым исходным кодом Haystack [2] и его коммерческое SaaS- предложение deepset Cloud. [3]

История

В июне 2018 года Милош Русич, Мальте Питч и Тимо Мёллер совместно основали компанию Deepset в Берлине , Германия . [1] В том же году компания обслужила первых клиентов, которые хотели внедрить услуги обработки естественного языка , адаптировав языковые модели BERT к своей области.

В июле 2019 года компания выпустила первую версию программного обеспечения с открытым исходным кодом FARM. [4]

В ноябре 2019 года компания выпустила первую версию программного обеспечения с открытым исходным кодом Haystack. [2]

В течение 2020 и 2021 годов deepset опубликовал несколько прикладных исследовательских работ на EMNLP , COLING и ACL , ведущих конференциях в области NLP . В 2020 году исследовательские вклады включали модели немецкого языка под названием GBERT и GELECTRA [5] , а также набор данных с ответами на вопросы, посвященный пандемии COVID-19 , под названием COVID-QA, который был создан в сотрудничестве с Intel и был аннотирован биомедицинскими экспертами. [6]

В 2021 году исследовательские вклады включали немецкие модели и наборы данных для ответов на вопросы и поиска отрывков, названные GermanQuAD и GermanDPR, [7] семантическую метрику сходства ответов , [8] и подход к мультимодальному поиску текстов и таблиц, позволяющий отвечать на вопросы по табличным данным. [9] Haystack содержит реализации всех трех вкладов, что позволяет использовать исследование через фреймворк с открытым исходным кодом.

В ноябре 2021 года разработка фреймворка FARM была прекращена, а его основные функции были интегрированы в фреймворк Haystack. [4]

В апреле 2022 года компания анонсировала коммерческое SaaS- предложение Deepset Cloud. [3]

По состоянию на август 2023 года самая популярная тонко настроенная языковая модель, созданная deepset, была загружена более 52 миллионов раз. [10]

Продукция и приложения

Haystack — это фреймворк Python с открытым исходным кодом для создания пользовательских приложений с большими языковыми моделями . Благодаря его модульным строительным блокам разработчики программного обеспечения могут реализовывать конвейеры для решения различных задач поиска по большим коллекциям документов, таких как поиск документов , семантический поиск , генерация текста , ответы на вопросы или резюмирование . Он интегрируется с Hugging Face Transformers , Elasticsearch , OpenSearch , OpenAI , Cohere , Anthropic и другими. У фреймворка есть активное сообщество на Discord с более чем 1,8 тыс. участников и GitHub , где на данный момент более 200 человек внесли свой вклад в его непрерывную разработку, [11] а также у него есть активное сообщество на Meetup . [12] Тысячи организаций используют фреймворк, включая предприятия из списка Global 500, такие как Airbus , Intel , Netflix , Apple или Infineon , Alcatel-Lucent Enterprise , BetterUp, Etalab, Sooth.ai и Lego . [13] [14]

Платформа Deepset Cloud поддерживает клиентов при создании масштабируемых приложений обработки естественного языка , охватывая весь процесс прототипирования, экспериментирования, развертывания и мониторинга. [15] Она построена на Haystack.

FARM был фреймворком для адаптации моделей представления. [4] Одной из его основных концепций была реализация адаптивных моделей, которые включали языковые модели и произвольное количество головок прогнозирования. FARM поддерживал доменную адаптацию и тонкую настройку этих моделей с помощью расширенных опций, например, накопление градиента, перекрестная проверка или автоматическое обучение со смешанной точностью . Его основные функции были интегрированы в Haystack в ноябре 2021 года, и его разработка была прекращена в то время. [16]

Финансирование

9 августа 2023 года Deepset объявил о раунде инвестиций серии B в размере 30 миллионов долларов США под руководством Balderton Capital и с участием существующих инвесторов GV , System.One, Lunar Ventures и Harpoon Ventures. [17] [18] [19] [20] 28 апреля 2022 года Deepset объявил о раунде инвестиций серии A в размере 14 миллионов долларов США под руководством GV , при участии Harpoon Ventures, Acequia Capital и команды опытных основателей коммерческого программного обеспечения с открытым исходным кодом и машинного обучения , таких как Алекс Ратнер (Snorkel AI), Мустафа Сулейман ( Deepmind ), Спенсер Кимбалл ( Cockroach Labs ), Джефф Хаммербахер ( Cloudera ) и Эмиль Эйфрем ( Neo4j ). [1] Предыдущий раунд предпосевных инвестиций в размере 1,6 миллиона долларов США 8 марта 2021 года был проведен System.One и Lunar Ventures, которые также участвовали в последующем раунде серии A.

Ссылки

  1. ^ abc Wiggers, Kyle (28 апреля 2022 г.). «Deepset привлекает $14 млн, чтобы помочь компаниям создавать приложения NLP». TechCrunch . Получено 31 августа 2022 г.
  2. ^ ab "deepset-ai/haystack". GitHub . Получено 31 августа 2022 г. .
  3. ^ ab "deepset Cloud". deepset . Получено 31 августа 2022 г. .
  4. ^ abc "deepset-ai/FARM". GitHub . Получено 31 августа 2022 г. .
  5. ^ Чан, Бранден; Шветер, Стефан; Мёллер, Тимо (2020). «Следующая языковая модель Германии». Труды 28-й Международной конференции по компьютерной лингвистике . Барселона, Испания (онлайн): Международный комитет по компьютерной лингвистике. стр. 6788–6796. doi : 10.18653/v1/2020.coling-main.598 .
  6. ^ Мёллер, Тимо; Рейна, Энтони; Джаякумар, Рагхаван; Питч, Мальте (09 июля 2020 г.). «COVID-QA: набор данных с ответами на вопросы для COVID-19». Материалы 1-го семинара по НЛП при COVID-19 на ACL 2020 . Онлайн: Ассоциация компьютерной лингвистики.
  7. ^ Мёллер, Тимо; Риш, Джулиан; Питч, Мальте (2021). «GermanQuAD и GermanDPR: улучшение неанглоязычных ответов на вопросы и поиска проходов». Труды 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 42–50. arXiv : 2104.12741 . doi : 10.18653/v1/2021.mrqa-1.4 .
  8. ^ Риш, Джулиан; Мёллер, Тимо; Гутш, Джулиан; Питш, Мальте (2021). «Семантическое сходство ответов для оценки моделей ответов на вопросы». Труды 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 149–157. arXiv : 2108.06130 . doi : 10.18653/v1/2021.mrqa-1.15 .
  9. ^ Костич, Богдан; Риш, Джулиан; Мёллер, Тимо (2021). «Мультимодальный поиск таблиц и текстов с использованием моделей Tri-encoder». Труды 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 82–91. arXiv : 2108.04049 . doi : 10.18653/v1/2021.mrqa-1.8 .
  10. ^ "deepset/roberta-base-squad2 · Hugging Face". huggingface.co . Получено 12 октября 2022 г. .
  11. ^ "Участники deepset-ai/haystack". GitHub . Получено 31 августа 2022 г.
  12. ^ "Open NLP Group". Meetup . Получено 31 августа 2022 г. .
  13. ^ Лафлин, Элени (28 апреля 2022 г.). "deepset привлекает $14 млн в рамках серии A под руководством GV для усовершенствованной платформы NLP". Business Wire . Получено 31 августа 2022 г.
  14. ^ "Who uses Haystack". GitHub . Получено 31 августа 2022 г. .
  15. ^ "deepset Cloud". VentureBeat . 28 апреля 2022 г. Получено 1 ноября 2022 г.
  16. ^ Чжоу, Цзяюань; Пачеко, Майкл; Ван, Чжиюань; Ся, Синь; Ло, Дэвид; Ван, Юань; Хассан, Ахмед Э. (2021). «Поиск иголки в стоге сена: автоматизированный поиск скрытых исправлений уязвимостей». 36-я Международная конференция IEEE/ACM по автоматизированной программной инженерии (ASE) 2021 г. стр. 705–716. doi :10.1109/ase51524.2021.9678720. ISBN 978-1-6654-0337-5. S2CID  246081539 . Получено 2023-11-13 .
  17. ^ «Deepset привлекает $30 млн, чтобы помочь предприятиям раскрыть ценность LLM». VentureBeat . 9 августа 2023 г. Получено 22 августа 2023 г.
  18. ^ "Deepset получает $30 млн на расширение своих предложений MLOps, ориентированных на LLM". TechCrunch . 9 августа 2023 г. Получено 22 августа 2023 г.
  19. ^ "Deepset, стартап в области искусственного интеллекта, помогающий компаниям создавать приложения с LLM, только что привлек $30 млн с помощью этой презентации из 12 слайдов". Business Insider . Получено 22 августа 2023 г.
  20. ^ «Deepset привлекает $30 млн, чтобы помочь крупнейшим в мире компаниям реализовать обещание LLM». Balderton . 9 августа 2023 г. Получено 22 августа 2023 г.
  • Официальный сайт
  • Deepset-ai на GitHub
Взято с "https://en.wikipedia.org/w/index.php?title=Deepset&oldid=1226390735"