Кодирование речи

Сжатие звука с потерями, применяемое к человеческой речи

Кодирование речи — это применение сжатия данных к цифровым аудиосигналам , содержащим речь . Кодирование речи использует оценку речевых параметров , специфичных для речи, с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления полученных смоделированных параметров в компактном потоке битов. [1]

Распространенными приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является линейное предсказательное кодирование (LPC), в то время как в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ необходима ссылка ]

Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и аудиокодировании , где оценка психоакустики используется для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовом диапазоне передается только информация в диапазоне частот от 400 до 3500 Гц, но реконструированный сигнал сохраняет адекватную разборчивость .

Кодирование речи отличается от других форм аудиокодирования тем, что речь является более простым сигналом, чем другие аудиосигналы, и доступна статистическая информация о свойствах речи. В результате некоторая слуховая информация, которая имеет значение в общем аудиокодировании, может быть ненужной в контексте кодирования речи. Кодирование речи подчеркивает сохранение разборчивости и приятности речи при использовании ограниченного объема передаваемых данных. [3] Кроме того, большинство речевых приложений требуют низкой задержки кодирования, поскольку задержка мешает речевому взаимодействию. [4]

Категории

Речевые кодеры бывают двух классов: [5]

  1. Кодеры формы волны
  2. Вокодеры

Компандирование выборки рассматривается как форма кодирования речи

Алгоритмы A-law и μ-law, используемые в цифровой телефонии G.711 PCM, можно рассматривать как более раннего предшественника кодирования речи, требующего всего 8 бит на выборку, но дающего фактически 12 бит разрешения . [7] Логарифмическое компандирование согласуется с восприятием человеческого слуха в том, что шум с низкой амплитудой слышен вместе с речевым сигналом с низкой амплитудой, но маскируется сигналом с высокой амплитудой. Хотя это привело бы к неприемлемым искажениям в музыкальном сигнале, пиковая природа речевых волн в сочетании с простой частотной структурой речи как периодической волны, имеющей одну основную частоту с редкими добавленными шумовыми всплесками, делает эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи. [ необходима цитата ] [ сомнительнообсудить ]

В то время было испробовано множество других алгоритмов, в основном варианты дельта-модуляции , но после тщательного рассмотрения проектировщиками ранних систем цифровой телефонии были выбраны алгоритмы A-law/μ-law. На момент их разработки их 33%-ное сокращение полосы пропускания при очень низкой сложности стало отличным инженерным компромиссом. Их аудиопроизводительность остается приемлемой, и не было необходимости заменять их в стационарной телефонной сети. [ необходима цитата ]

В 2008 году ITU-T стандартизировал кодек G.711.1 , имеющий масштабируемую структуру. Частота дискретизации входного сигнала составляет 16 кГц. [8]

Современная компрессия речи

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где очень низкие скорости передачи данных использовались для достижения эффективной работы во враждебной радиосреде. В то же время, была доступна гораздо большая вычислительная мощность в виде схем VLSI , чем была доступна для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могли использовать гораздо более сложные методы, чем были доступны в 1960-х годах, для достижения гораздо более высоких коэффициентов сжатия.

Наиболее широко используемые алгоритмы кодирования речи основаны на линейном предсказательном кодировании (LPC). [9] В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением (CELP) на основе LPC, которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного предсказания , который моделирует спектральную огибающую, и модель на основе кодовой книги остатка линейной предсказательной модели. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). В дополнение к фактическому речевому кодированию сигнала часто необходимо использовать канальное кодирование для передачи, чтобы избежать потерь из-за ошибок передачи. Чтобы получить наилучшие общие результаты кодирования, методы речевого кодирования и канального кодирования выбираются парами, при этом более важные биты в потоке речевых данных защищаются более надежным канальным кодированием.

Модифицированное дискретное косинусное преобразование (MDCT) используется в технике LD-MDCT, используемой форматом AAC-LD , представленным в 1999 году. [10] С тех пор MDCT широко применяется в приложениях передачи голоса по IP (VoIP), таких как широкополосный аудиокодек G.729.1, представленный в 2006 году, [11] FaceTime от Apple (использующий AAC-LD), представленный в 2010 году, [12] и кодек CELT , представленный в 2011 году. [13]

Opus — это бесплатный программный аудиокодер. Он объединяет ориентированный на речь алгоритм SILK на основе LPC и алгоритм CELT на основе MDCT с малой задержкой, переключаясь между ними или комбинируя их по мере необходимости для максимальной эффективности. [14] [15] Он широко используется для звонков VoIP в WhatsApp . [16] [17] [18] Игровая консоль PlayStation 4 также использует Opus для своего системного чата PlayStation Network . [19]

Было продемонстрировано несколько кодеков с еще более низкими скоростями передачи данных . Codec2 , который работает на скоростях передачи данных всего 450 бит/с, используется в любительском радио. [20] В настоящее время НАТО использует MELPe , предлагая разборчивую речь на скорости 600 бит/с и ниже. [21] Также появились подходы нейронного вокодера: Lyra от Google дает «почти жуткое» качество на скорости 3 кбит/с. [22] Satin от Microsoft также использует машинное обучение, но использует более высокую настраиваемую скорость передачи данных и является широкополосным. [23]

Подполя

Широкополосное аудиокодирование
Узкополосное аудиокодирование

Смотрите также

Ссылки

  1. ^ Архона Рамирес, М.; Минам, М. (2003). «Кодирование речи с низкой скоростью передачи данных». Энциклопедия телекоммуникаций Wiley, JG Proakis, ред . 3. Нью-Йорк: Wiley: 1299–1308.
  2. ^ М. Архона Рамирес и М. Минами, «Технология и стандарты для методов кодирования речевых сообщений с низкой скоростью передачи данных», в «Справочнике по компьютерным сетям», под ред. Х. Бидголи, Нью-Йорк: Wiley, 2011, т. 2, стр. 447–467.
  3. ^ П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.
  4. ^ JH Chen, RV Cox, Y.-C. Lin, NS Jayant и MJ Melchner, Кодер CELP с малой задержкой для стандарта кодирования речи CCITT 16 кбит/с. IEEE J. Select. Areas Commun. 10(5): 830-849, июнь 1992 г.
  5. ^ "Soo Hyun Bae, ECE 8873 Сжатие и моделирование данных, Технологический институт Джорджии, 2004". Архивировано из оригинала 7 сентября 2006 года.
  6. ^ Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994. S2CID  236149944.
  7. ^ Джайант, Н. С.; Нолл, П. (1984). Цифровое кодирование волновых форм . Englewood Cliffs: Prentice-Hall.
  8. ^ G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711, ITU-T, 2012 , получено 24.12.2022
  9. ^ Gupta, Shipra (май 2016 г.). "Application of MFCC in Text Independent Speaker Recognition" (PDF) . International Journal of Advanced Research in Computer Science and Software Engineering . 6 (5): 805–810 (806). ISSN  2277-128X. S2CID  212485331. Архивировано из оригинала (PDF) 2019-10-18 . Получено 18 октября 2019 г. .
  10. ^ Шнелл, Маркус; Шмидт, Маркус; Яндер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Fraunhofer IIS . Audio Engineering Society . Получено 20 октября 2019 г.
  11. ^ Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP. John Wiley & Sons . стр. 69. ISBN 9780470377864.
  12. Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime». AppleInsider . Получено 9 июня 2010 г.
  13. ^ Презентация кодека CELT. Архивировано 07.08.2011 на Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. также слайды презентации в формате PDF)
  14. ^ "Opus Codec". Opus (Домашняя страница). Фонд Xiph.org . Получено 31 июля 2012 г.
  15. ^ Валин, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я конвенция AES. Общество звукорежиссеров . arXiv : 1602.04845 .
  16. ^ Лейден, Джон (27 октября 2015 г.). «WhatsApp разоблачен: исследованы внутренности приложения, высасывающего информацию». The Register . Получено 19 октября 2019 г.
  17. ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android». В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармоль, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
  18. ^ Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфоном: проблемы, примеры и профилактика». В Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и примеры . John Wiley & Sons. стр. 187–206 (200). doi :10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID  214034702.
  19. ^ "Программное обеспечение с открытым исходным кодом, используемое в PlayStation4". Sony Interactive Entertainment Inc. Получено 11 декабря 2017 г.[ не пройдена проверка ]
  20. ^ "GitHub - Codec2". GitHub . Ноябрь 2019.
  21. ^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное предиктивное векторное квантование параметров MELP», в Трудах Международной конференции IEEE по акустике, речи и обработке сигналов, 2006, стр. I 705–708, Тулуза, Франция
  22. ^ Бакли, Ян (08.04.2021). «Google делает общедоступным свой речевой кодек Lyra с низким битрейтом». MakeUseOf . Получено 21.07.2022 .
  23. ^ Левент-Леви, Цахи (19.04.2021). «Лира, Сатин и будущее голосовых кодеков в WebRTC». BlogGeek.me . Получено 21.07.2022 .
  24. ^ "LPCNet: Эффективный нейронный синтез речи". Фонд Xiph.Org. 8 августа 2023 г.
  • Тестовые сигналы ITU-T для тестовых образцов систем телекоммуникаций
  • Инструмент оценки восприятия качества речи (PESQ) МСЭ-Т Источники
Взято с "https://en.wikipedia.org/w/index.php?title=Speech_coding&oldid=1244965831"