Голосовые вычисления — это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосовых данных. [1]
Она охватывает множество других областей, включая взаимодействие человека и компьютера , разговорные вычисления , лингвистику , обработку естественного языка , автоматическое распознавание речи , синтез речи , аудиотехнику , цифровую обработку сигналов , облачные вычисления , науку о данных , этику , право и информационную безопасность .
Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением интеллектуальных колонок , таких как Amazon Echo и Google Assistant , переходом к безсерверным вычислениям и повышением точности распознавания речи и моделей преобразования текста в речь .
Голосовые вычисления имеют богатую историю. [2] Сначала такие ученые, как Вольфганг Кемпелен, начали строить речевые машины для создания самых ранних синтетических звуков речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с помощью диктофонов и его воспроизведению в корпоративных условиях. В 1950-1960-х годах были примитивные попытки создания автоматизированных систем распознавания речи компаниями Bell Labs , IBM и другими. Однако только в 1980-х годах скрытые марковские модели стали использоваться для распознавания до 1000 слов, после чего системы распознавания речи стали актуальными.
Дата | Событие |
---|---|
1784 | Вольфганг фон Кемпелен создает акустико-механическую речевую машину. |
1879 | Томас Эдисон изобретает первую диктофонную машину . |
1952 | Bell Labs выпускает Одри , способную распознавать произнесенные цифры с точностью 90%. |
1962 | IBM Shoebox может распознавать до 16 слов. |
1971 | Создана Гарпия , которая понимает более 1000 слов. |
1986 | IBM Tangora использует скрытые марковские модели для прогнозирования фонем в речи. |
2006 | Агентство национальной безопасности начинает исследования по распознаванию ключевых слов во время обычных разговоров. |
2008 | Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах. |
2011 | Apple выпускает Siri на iPhone |
2014 | Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления доступными для широких слоев населения. |
Около 2011 года Siri появилась на iPhone от Apple как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к построению архитектур вычислений с голосовым управлением. PS4 была выпущена Sony в Северной Америке в 2013 году (более 70 миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (более 30 миллионов устройств), Microsoft выпустила Cortana (2015 год — 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 год — 2 миллиарда активных пользователей Android в месяц), а Apple выпустила HomePod (2018 год — 500 000 проданных устройств и 1 миллиард устройств с iOS/Siri). Эти сдвиги, наряду с достижениями в облачной инфраструктуре (например, Amazon Web Services ) и кодеках , укрепили область голосовых вычислений и сделали ее широко актуальной для широкой общественности.
Голосовой компьютер представляет собой совокупность аппаратного и программного обеспечения для обработки голосовых данных.
Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционном Amazon Echo . В других вариантах в качестве голосовых компьютеров могут использоваться традиционные ноутбуки или мобильные телефоны . Более того, интерфейсов для голосовых компьютеров становится все больше с появлением устройств с поддержкой IoT , например, в автомобилях или телевизорах.
По состоянию на сентябрь 2018 года с Amazon Alexa совместимы более 20 000 типов устройств. [3]
Программное обеспечение для обработки голоса может считывать/записывать, записывать, очищать, шифровать/дешифровать, воспроизводить, перекодировать, транскрибировать, сжимать, публиковать, моделировать и визуализировать голосовые файлы.
Вот некоторые популярные программные пакеты, связанные с голосовыми вычислениями:
Имя пакета | Описание |
---|---|
FFmpeg | для перекодирования аудиофайлов из одного формата в другой (например, .WAV --> .MP3). [4] |
Мужество | для записи и фильтрации звука. [5] |
SoX | для обработки аудиофайлов и удаления окружающего шума. [6] |
Набор инструментов для естественного языка | для включения в стенограммы таких вещей, как части речи . [7] |
LibROSA | для визуализации спектрограмм аудиофайлов и описания аудиофайлов. [8] |
OpenSMILE | для добавления в аудиофайлы таких характеристик, как коэффициенты мел-частотного кепстра. [9] |
CMU Сфинкс | для транскрибирования речевых файлов в текст. [10] |
Pyttsx3 | для воспроизведения аудиофайлов (преобразование текста в речь). [11] |
Пикриптодом | для шифрования и дешифрования аудиофайлов. [12] |
АудиоФлюкс | для анализа аудио и музыки, извлечения признаков. [13] |
Голосовые вычислительные приложения охватывают многие отрасли, включая голосовых помощников, здравоохранение, электронную коммерцию, финансы, цепочку поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, рекрутинг, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что голосовые технологии будут расти со среднегодовым темпом роста 19-25% к 2025 году, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [14]
В Соединенных Штатах в разных штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.
Более того, COPPA является важным законом для защиты несовершеннолетних, использующих Интернет. С ростом числа несовершеннолетних, взаимодействующих с голосовыми вычислительными устройствами (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия смягчила правило COPAA, чтобы дети могли выполнять голосовые поиски и команды. [15] [16]
Наконец, GDPR — это новый европейский закон, который регулирует право на забвение и многие другие положения для граждан ЕС. GDPR также ясно указывает, что компании должны четко определить меры для получения согласия, если производятся аудиозаписи, и определить цель и сферу использования этих записей, например, в учебных целях. В GDPR была повышена планка для действительного согласия. Согласия должны быть данны свободно, конкретно, осознанно и недвусмысленно; молчаливое согласие больше не является достаточным. [17]
Существует множество исследовательских конференций, посвященных голосовым вычислениям. Вот некоторые из них:
По состоянию на январь 2018 года Google Assistant имел около 2000 действий. [22]
По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [23]
В июне 2017 года Google выпустила AudioSet, [24] масштабную коллекцию 10-секундных звуковых клипов с человеческой маркировкой, взятых из видео YouTube. Она содержит 1 010 480 видеофайлов человеческой речи, или 2 793,5 часов в общей сложности. [25] Она была выпущена в рамках конференции IEEE ICASSP 2017. [26]
В ноябре 2017 года Mozilla Foundation выпустила проект Common Voice Project — коллекцию речевых файлов, призванную внести вклад в более крупное сообщество машинного обучения с открытым исходным кодом. [27] [28] В настоящее время размер голосового банка составляет 12 ГБ, и с момента запуска проекта в июне 2017 года в нем собрано более 500 часов голосовых данных на английском языке из 112 стран. [29] Этот набор данных уже привел к появлению творческих проектов, таких как модель DeepSpeech — модель транскрипции с открытым исходным кодом. [30]