Голосовые вычисления

Дисциплина в вычислениях
Amazon Echo , пример голосового компьютера

Голосовые вычисления — это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосовых данных. [1]

Она охватывает множество других областей, включая взаимодействие человека и компьютера , разговорные вычисления , лингвистику , обработку естественного языка , автоматическое распознавание речи , синтез речи , аудиотехнику , цифровую обработку сигналов , облачные вычисления , науку о данных , этику , право и информационную безопасность .

Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением интеллектуальных колонок , таких как Amazon Echo и Google Assistant , переходом к безсерверным вычислениям и повышением точности распознавания речи и моделей преобразования текста в речь .

История

Голосовые вычисления имеют богатую историю. [2] Сначала такие ученые, как Вольфганг Кемпелен, начали строить речевые машины для создания самых ранних синтетических звуков речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с помощью диктофонов и его воспроизведению в корпоративных условиях. В 1950-1960-х годах были примитивные попытки создания автоматизированных систем распознавания речи компаниями Bell Labs , IBM и другими. Однако только в 1980-х годах скрытые марковские модели стали использоваться для распознавания до 1000 слов, после чего системы распознавания речи стали актуальными.

ДатаСобытие
1784Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879Томас Эдисон изобретает первую диктофонную машину .
1952Bell Labs выпускает Одри , способную распознавать произнесенные цифры с точностью 90%.
1962IBM Shoebox может распознавать до 16 слов.
1971Создана Гарпия , которая понимает более 1000 слов.
1986IBM Tangora использует скрытые марковские модели для прогнозирования фонем в речи.
2006Агентство национальной безопасности начинает исследования по распознаванию ключевых слов во время обычных разговоров.
2008Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах.
2011Apple выпускает Siri на iPhone
2014Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления доступными для широких слоев населения.

Около 2011 года Siri появилась на iPhone от Apple как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к построению архитектур вычислений с голосовым управлением. PS4 была выпущена Sony в Северной Америке в 2013 году (более 70 миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (более 30 миллионов устройств), Microsoft выпустила Cortana (2015 год — 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 год — 2 миллиарда активных пользователей Android в месяц), а Apple выпустила HomePod (2018 год — 500 000 проданных устройств и 1 миллиард устройств с iOS/Siri). Эти сдвиги, наряду с достижениями в облачной инфраструктуре (например, Amazon Web Services ) и кодеках , укрепили область голосовых вычислений и сделали ее широко актуальной для широкой общественности.

Аппаратное обеспечение

Голосовой компьютер представляет собой совокупность аппаратного и программного обеспечения для обработки голосовых данных.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционном Amazon Echo . В других вариантах в качестве голосовых компьютеров могут использоваться традиционные ноутбуки или мобильные телефоны . Более того, интерфейсов для голосовых компьютеров становится все больше с появлением устройств с поддержкой IoT , например, в автомобилях или телевизорах.

По состоянию на сентябрь 2018 года с Amazon Alexa совместимы более 20 000 типов устройств. [3]

Программное обеспечение

Программное обеспечение для обработки голоса может считывать/записывать, записывать, очищать, шифровать/дешифровать, воспроизводить, перекодировать, транскрибировать, сжимать, публиковать, моделировать и визуализировать голосовые файлы.

Вот некоторые популярные программные пакеты, связанные с голосовыми вычислениями:

Имя пакетаОписание
FFmpegдля перекодирования аудиофайлов из одного формата в другой (например, .WAV --> .MP3). [4]
Мужестводля записи и фильтрации звука. [5]
SoXдля обработки аудиофайлов и удаления окружающего шума. [6]
Набор инструментов для естественного языкадля включения в стенограммы таких вещей, как части речи . [7]
LibROSAдля визуализации спектрограмм аудиофайлов и описания аудиофайлов. [8]
OpenSMILEдля добавления в аудиофайлы таких характеристик, как коэффициенты мел-частотного кепстра. [9]
CMU Сфинксдля транскрибирования речевых файлов в текст. [10]
Pyttsx3для воспроизведения аудиофайлов (преобразование текста в речь). [11]
Пикриптодомдля шифрования и дешифрования аудиофайлов. [12]
АудиоФлюксдля анализа аудио и музыки, извлечения признаков. [13]

Приложения

Голосовые вычислительные приложения охватывают многие отрасли, включая голосовых помощников, здравоохранение, электронную коммерцию, финансы, цепочку поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, рекрутинг, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что голосовые технологии будут расти со среднегодовым темпом роста 19-25% к 2025 году, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [14]

В Соединенных Штатах в разных штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA является важным законом для защиты несовершеннолетних, использующих Интернет. С ростом числа несовершеннолетних, взаимодействующих с голосовыми вычислительными устройствами (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия смягчила правило COPAA, чтобы дети могли выполнять голосовые поиски и команды. [15] [16]

Наконец, GDPR — это новый европейский закон, который регулирует право на забвение и многие другие положения для граждан ЕС. GDPR также ясно указывает, что компании должны четко определить меры для получения согласия, если производятся аудиозаписи, и определить цель и сферу использования этих записей, например, в учебных целях. В GDPR была повышена планка для действительного согласия. Согласия должны быть данны свободно, конкретно, осознанно и недвусмысленно; молчаливое согласие больше не является достаточным. [17]

Научно-исследовательские конференции

Существует множество исследовательских конференций, посвященных голосовым вычислениям. Вот некоторые из них:

Сообщество разработчиков

По состоянию на январь 2018 года Google Assistant имел около 2000 действий. [22]

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [23]

В июне 2017 года Google выпустила AudioSet, [24] масштабную коллекцию 10-секундных звуковых клипов с человеческой маркировкой, взятых из видео YouTube. Она содержит 1 010 480 видеофайлов человеческой речи, или 2 793,5 часов в общей сложности. [25] Она была выпущена в рамках конференции IEEE ICASSP 2017. [26]

В ноябре 2017 года Mozilla Foundation выпустила проект Common Voice Project — коллекцию речевых файлов, призванную внести вклад в более крупное сообщество машинного обучения с открытым исходным кодом. [27] [28] В настоящее время размер голосового банка составляет 12 ГБ, и с момента запуска проекта в июне 2017 года в нем собрано более 500 часов голосовых данных на английском языке из 112 стран. [29] Этот набор данных уже привел к появлению творческих проектов, таких как модель DeepSpeech — модель транскрипции с открытым исходным кодом. [30]

Смотрите также

Ссылки

  1. ^ Швёбель, Дж. (2018). Введение в голосовые вычисления на Python. Бостон; Сиэтл, Атланта: NeuroLex Laboratories. https://neurolex.ai/voicebook
  2. ^ Бойд, Кларк (2019-08-30). «Технология распознавания речи: прошлое, настоящее и будущее». Стартап . Получено 2025-01-10 .
  3. ^ Кинселла, Брет (2018-09-02). «Amazon Alexa теперь имеет 50 000 навыков по всему миру, работает с 20 000 устройств, используется 3500 брендами». Voicebot.ai . Получено 2025-01-10 .
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ Смелость. https://www.audacityteam.org/
  6. ^ SoX. http://sox.sourceforge.net/
  7. ^ НЛТК. https://www.nltk.org/
  8. ^ ЛибРОСА. https://librosa.github.io/librosa/
  9. ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
  10. ^ "PocketSphinx — это легкий движок распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает и на настольных компьютерах: Cmusphinx/Pocketsphinx". GitHub . 29 марта 2020 г.
  11. ^ Пытцx3. https://github.com/nateshmbhat/pyttsx3
  12. ^ Pycryptodome. https://pycryptodome.readthedocs.io/en/latest/
  13. ^ AudioFlux. https://github.com/libAudioFlux/audioFlux/
  14. ^ "Глобальный рынок распознавания речи и голоса, прогноз 2018 года до 2025 года - CAGR, как ожидается, вырастет на 25,7% - ResearchAndMarkets.com". Архивировано из оригинала 2024-01-19 . Получено 2025-01-10 .
  15. ^ Колдьюи, Девин (24.10.2017). «FTC смягчает правило COPPA, чтобы дети могли выполнять голосовые поиски и команды». TechCrunch . Получено 10.01.2025 .
  16. ^ "Федеральный реестр :: Запросить доступ". 8 декабря 2017 г.
  17. ^ МАПП. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  18. ^ Interspeech 2018. http://interspeech2018.org/
  19. ^ "14-й Международный симпозиум по усовершенствованному управлению транспортными средствами - докладчики, сессии, повестка дня". www.eventyco.com . Получено 10.01.2025 .
  20. ^ 2018 ФГ. https://fg2018.cse.sc.edu/
  21. ^ ASCII 2019. http://acii-conf.org/2019/
  22. ^ Матчлер, Ава (24.01.2018). «Общее количество приложений Google Assistant достигло почти 2400. Но это не настоящее число. На самом деле их 1719». Voicebot.ai . Получено 10.01.2025 .
  23. ^ Кинселла, Брет (2018-09-02). «Amazon Alexa теперь имеет 50 000 навыков по всему миру, работает с 20 000 устройств, используется 3500 брендами». Voicebot.ai . Получено 2025-01-10 .
  24. ^ Google AudioSet. https://research.google.com/audioset/
  25. ^ "AudioSet". research.google.com . Получено 2025-01-10 .
  26. ^ Gemmeke, JF, Ellis, DP, Freedman, D., Jansen, A., Lawrence, W., Moore, & Ritter, M. (2017, март). Аудионабор: онтология и маркированный человеком набор данных для аудиособытий. В Acoustics, Speech and Signal Processing (ICASSP), IEEE International Conference on (стр. 776-780). IEEE.
  27. ^ Проект Common Voice. https://voice.mozilla.org/
  28. ^ "Анонс первого выпуска модели распознавания речи с открытым исходным кодом и набора голосовых данных Mozilla | Блог Mozilla". blog.mozilla.org . Получено 10.01.2025 .
  29. ^ Большое хранилище голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
  30. ^ DeepSpeech. https://github.com/mozilla/DeepSpeech
Взято с "https://en.wikipedia.org/w/index.php?title=Голосовые_вычисления&oldid=1268559446"