Оригинальный автор(ы) | Ли Акинобу |
---|---|
Разработчик(и) | Лаборатория Кавахара, Киотский университет, проектная группа Julius, Нагойский технологический институт |
Первоначальный выпуск | 1991 ( 1991 ) |
Стабильный релиз | 4.6 / 2 сентября 2020 г. |
Репозиторий | github.com/julius-speech |
Написано в | С |
Операционная система | Unix ( Linux , BSD и т.д.), Windows (через Cygwin ) |
Платформа | IA-32 , x86-64 |
Доступно в | японский, английский |
Тип | Распознавание речи |
Лицензия | Бесплатно , в стиле BSD [1] [2] |
Веб-сайт | julius.osdn.jp/en_index.php |
Julius — это движок распознавания речи , в частности, высокопроизводительное двухпроходное программное обеспечение для декодирования слитной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, работающих с речью. Он может выполнять декодирование практически в реальном времени (RTC) на большинстве современных персональных компьютеров (ПК) в задаче диктовки 60 тыс. слов с использованием триграммы слов (3-граммы) и контекстно-зависимой скрытой марковской модели (HMM). Основные методы поиска полностью включены.
Он также тщательно модулируется, чтобы быть независимым от структур модели, и поддерживаются различные типы HMM, такие как трифоны с общим состоянием и модели с привязкой к смеси, с любым количеством смесей, состояний или телефонов. Стандартные форматы приняты для работы с другими бесплатными инструментами моделирования. Основная платформа — Linux и другие рабочие станции Unix , и он работает на Windows . Julius — это бесплатное программное обеспечение с открытым исходным кодом , выпущенное под пересмотренной лицензией программного обеспечения в стиле BSD .
Julius разрабатывался как часть бесплатного программного обеспечения для японских исследований LVCSR с 1997 года, и работа была продолжена в Консорциуме по распознаванию непрерывной речи (CSRC), Япония, с 2000 по 2003 год.
Начиная с версии 3.4, в Julius интегрирован парсер распознавания на основе грамматики, названный Julian . Julian — это модифицированная версия Julius, которая использует разработанный вручную тип конечного автомата (FSM), называемый детерминированным конечным автоматом (DFA) в качестве языковой модели. Его можно использовать для построения своего рода системы голосовых команд с небольшим словарным запасом или различных задач системы речевых диалогов .
Для работы распознавателя Julius необходимы языковая модель и акустическая модель для каждого языка.
Julius использует акустические модели в формате ASCII Hidden Markov Model Toolkit ( HTK ) , словарь произношений в формате, подобном HTK, и языковые модели слов 3-грамма в стандартном формате ARPA: прямая 2-грамма и обратная 3-грамма, обученные на основе речевого корпуса с обратным порядком слов.
Хотя Julius распространяется только с японскими моделями, проект VoxForge работает над созданием английских акустических моделей для использования с механизмом распознавания речи Julius.
В апреле 2018 года благодаря усилиям Mozilla Foundation был представлен 350-часовой аудиокорпус разговорного английского языка. Новая английская речевая модель с открытым исходным кодом ENVR-v5.4 была выпущена вместе с польскими моделями PLPL-v7.1 и доступна на SourceForge. [3]