Субвокальное распознавание

Преобразование субвокализации в цифровой выход
Электроды, используемые в исследовании распознавания субвокальной речи в исследовательской лаборатории Эймса НАСА.

Субвокальное распознавание (SVR) — это процесс принятия субвокализации и преобразования обнаруженных результатов в цифровой вывод, слуховой или текстовый. [1] Бесшумный речевой интерфейс — это устройство, которое позволяет осуществлять речевое общение без использования звука, издаваемого людьми, когда они озвучивают свои речевые звуки . Он работает с помощью компьютера, идентифицирующего фонемы , которые произносит человек, из неслуховых источников информации о его речевых движениях . Затем они используются для воссоздания речи с помощью синтеза речи . [2]

Методы ввода

Системы бесшумного речевого интерфейса были созданы с использованием ультразвукового и оптического ввода данных о движениях языка и губ . [3] Электромагнитные устройства являются еще одним методом отслеживания движений языка и губ. [4]

Еще одним методом является обнаружение речевых движений с помощью электромиографии мышц речевого артикулятора и гортани . [5] [6] Другим источником информации являются резонансные сигналы голосового тракта , которые передаются посредством костной проводимости и называются неслышимыми шумами. [7]

Они также были созданы как интерфейс мозг-компьютер, использующий активность мозга в двигательной коре, полученную с помощью внутрикорковых микроэлектродов . [8]

Использует

Такие устройства созданы в качестве вспомогательных средств для тех, кто не может создать звуковую фонацию, необходимую для слышимой речи, например, после ларингэктомии . [9] Другое применение — для общения, когда речь маскируется фоновым шумом или искажается автономным дыхательным аппаратом . Еще одно практическое применение — когда существует необходимость в беззвучном общении, например, когда требуется конфиденциальность в общественном месте или требуется бесшумная передача данных без помощи рук во время военной или охранной операции. [3] [10]

В 2002 году японская компания NTT DoCoMo объявила, что создала бесшумный мобильный телефон , использующий электромиографию и визуализацию движения губ. Компания заявила, что «стимулом к ​​разработке такого телефона стало избавление общественных мест от шума», добавив, что «технология также должна помочь людям, которые навсегда потеряли голос». [11] С тех пор была показана возможность использования бесшумных речевых интерфейсов для практического общения. [12]

В 2019 году Арнав Капур , исследователь из Массачусетского технологического института , провел исследование, известное как AlterEgo. Его реализация интерфейса беззвучной речи обеспечивает прямую связь между человеческим мозгом и внешними устройствами посредством стимуляции речевых мышц. Используя нейронные сигналы, связанные с речью и языком, система AlterEgo расшифровывает предполагаемые слова пользователя и переводит их в текст или команды без необходимости в слышимой речи. [13]

Исследования и патенты

Благодаря гранту от армии США в Калифорнийском университете в Ирвайне проводятся исследования синтетической телепатии с использованием субвокализации под руководством ученого Майка Д'Змуры. [14]

Исследовательская лаборатория Эймса НАСА в Маунтин -Вью , Калифорния, под руководством Чарльза Йоргенсена проводит исследования субвокализации. [ необходима ссылка ]

Научно-исследовательская программа по интерфейсу «мозг-компьютер» в Центре Уодсворта при Департаменте здравоохранения штата Нью-Йорк подтвердила существующую способность расшифровывать согласные и гласные из воображаемой речи, что позволяет осуществлять коммуникацию на уровне мозга с использованием воображаемой речи [15] , однако с использованием ЭЭГ вместо методов субвокализации.

Патенты США на технологии бесшумной связи включают: Патент США 6587729 «Устройство для звуковой передачи речи с использованием эффекта радиочастотного слуха» [16] Патент США 5159703 «Система бесшумной подсознательной презентации» [17] Патент США 6011991 «Система и метод связи, включающий анализ мозговых волн и/или использование мозговой активности» [18] Патент США 3951134 «Устройство и метод для удаленного мониторинга и изменения мозговых волн» [19] Последние два основаны на анализе мозговых волн.

В художественной литературе

Смотрите также

Ссылки

  1. ^ Ширли, Джон (2013-05-01). Новые табу. PM Press. ISBN 9781604868715. Получено 14 апреля 2017 г. .
  2. ^ Denby B, Schultz T, Honda K, Hueber T, Gilbert JM, Brumberg JS (2010). Бесшумные речевые интерфейсы. Speech Communication 52: 270–287. doi :10.1016/j.specom.2009.08.002
  3. ^ ab Hueber T, Benaroya EL, Chollet G, Denby B, Dreyfus G, Stone M. (2010). Разработка бесшумного речевого интерфейса, управляемого ультразвуком и оптическими изображениями языка и губ. Speech Communication, 52 288–300. doi :10.1016/j.specom.2009.11.004
  4. ^ Ван, Дж., Самал, А. и Грин, Дж. Р. (2014). Предварительное испытание интерактивного беззвучного речевого интерфейса в реальном времени на основе электромагнитного артикулографа, 5-й семинар ACL/ISCA по обработке речи и языка для вспомогательных технологий, Балтимор, Мэриленд, 38-45.
  5. ^ Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевая коммуникация, 52: 354–366. doi :10.1016/j.specom.2009.11.003
  6. ^ Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевая коммуникация, 52: 341-353. doi :10.1016/j.specom.2009.12.002
  7. ^ Хирахара Т., Отани М., Шимизу С., Тода Т., Накамура К., Накадзима Й., Шикано К. (2010). Улучшение беззвучной речи с использованием резонансных сигналов голосового тракта, проводимых телом. Речевая коммуникация, 52:301–313. doi :10.1016/j.specom.2009.12.001
  8. ^ Brumberg JS, Nieto-Castanon A, Kennedy PR, Guenther FH (2010). Интерфейсы мозг-компьютер для речевой коммуникации. Speech Communication 52:367–379. 2010 doi :10.1016/j.specom.2010.01.001
  9. ^ Дэн Y., Патель R., Хитон JT, Колби G., Гилмор LD, Кабрера J., Рой SH, Де Лука CJ, Мельцнер GS (2009). Распознавание нарушенной речи с использованием акустических и sEMG сигналов. В INTERSPEECH-2009, 644-647.
  10. ^ Дэн И., Колби Г., Хитон Дж. Т. и Мельцнер Х. Г. С. (2012). Достижения в обработке сигналов для системы распознавания тихой речи на основе MUTE sEMG. Военная конференция по коммуникациям, MILCOM 2012.
  11. ^ Фицпатрик М. (2002). Мобильный телефон с функцией чтения по губам заставит замолчать болтунов. New Scientist.
  12. ^ Ванд М., Шульц Т. (2011). Сеанс-независимое распознавание речи на основе ЭМГ. Труды 4-й Международной конференции по биоинспирированным системам и обработке сигналов.
  13. ^ "Обзор проекта ‹ AlterEgo". MIT Media Lab . Получено 20 мая 2024 г.
  14. ^ "Армия разрабатывает "синтетическую телепатию"". NBC News . 13 октября 2008 г.
  15. ^ Пей, Сяомей; Барбур, Деннис Л.; Лойтхардт, Эрик С.; Шалк, Гервин (2011). «Декодирование гласных и согласных в произнесенных и воображаемых словах с использованием электрокортикографических сигналов у людей». Журнал нейронной инженерии . 8 (4): 046028. Bibcode : 2011JNEng...8d6028P. doi : 10.1088/1741-2560/8/4/046028. PMC 3772685. PMID  21750369 . 
  16. ^ Аппарат для звуковой передачи речи с использованием эффекта радиочастотного слуха
  17. ^ Система бесшумной подсознательной презентации
  18. ^ Система и метод коммуникации, включая анализ мозговых волн и/или использование мозговой активности
  19. ^ Аппарат и метод дистанционного мониторинга и изменения мозговых волн
  20. ^ Кларк, Артур С. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 . 

Дальнейшее чтение

  • Блак, Джон (17 марта 2004 г.). "Пресс-релиз NASA". NASA. стр. 1. Архивировано из оригинала 1 января 2024 г.
  • Армстронг, Дэвид (10 апреля 2006 г.). «Безмолвный оратор». Forbes . стр. 1. Архивировано из оригинала 14 апреля 2006 г.
  • Саймонит, Том (6 сентября 2007 г.). «Думать о словах — значит управлять инвалидной коляской». New Scientist. стр. 1.
  • Центр Эймса НАСА
Взято с "https://en.wikipedia.org/w/index.php?title=Subvocal_recognition&oldid=1246934131"