Субвокальное распознавание

Преобразование субвокализации в цифровой выход

Субвокальное распознавание (SVR) — это процесс принятия субвокализации и преобразования обнаруженных результатов в цифровой вывод, слуховой или текстовый. ^[1] Бесшумный речевой интерфейс — это устройство, которое позволяет осуществлять речевое общение без использования звука, издаваемого людьми, когда они озвучивают свои речевые звуки . Он работает с помощью компьютера, идентифицирующего фонемы , которые произносит человек, из неслуховых источников информации о его речевых движениях . Затем они используются для воссоздания речи с помощью синтеза речи . ^[2]

Методы ввода

Системы бесшумного речевого интерфейса были созданы с использованием ультразвукового и оптического ввода данных о движениях языка и губ . ^[3] Электромагнитные устройства являются еще одним методом отслеживания движений языка и губ. ^[4]

Еще одним методом является обнаружение речевых движений с помощью электромиографии мышц речевого артикулятора и гортани . ^[5]^[6] Другим источником информации являются резонансные сигналы голосового тракта , которые передаются посредством костной проводимости и называются неслышимыми шумами. ^[7]

Они также были созданы как интерфейс мозг-компьютер, использующий активность мозга в двигательной коре, полученную с помощью внутрикорковых микроэлектродов . ^[8]

Использует

Такие устройства созданы в качестве вспомогательных средств для тех, кто не может создать звуковую фонацию, необходимую для слышимой речи, например, после ларингэктомии . ^[9] Другое применение — для общения, когда речь маскируется фоновым шумом или искажается автономным дыхательным аппаратом . Еще одно практическое применение — когда существует необходимость в беззвучном общении, например, когда требуется конфиденциальность в общественном месте или требуется бесшумная передача данных без помощи рук во время военной или охранной операции. ^[3]^[10]

В 2002 году японская компания NTT DoCoMo объявила, что создала бесшумный мобильный телефон , использующий электромиографию и визуализацию движения губ. Компания заявила, что «стимулом к разработке такого телефона стало избавление общественных мест от шума», добавив, что «технология также должна помочь людям, которые навсегда потеряли голос». ^[11] С тех пор была показана возможность использования бесшумных речевых интерфейсов для практического общения. ^[12]

В 2019 году Арнав Капур , исследователь из Массачусетского технологического института , провел исследование, известное как AlterEgo. Его реализация интерфейса беззвучной речи обеспечивает прямую связь между человеческим мозгом и внешними устройствами посредством стимуляции речевых мышц. Используя нейронные сигналы, связанные с речью и языком, система AlterEgo расшифровывает предполагаемые слова пользователя и переводит их в текст или команды без необходимости в слышимой речи. ^[13]

Исследования и патенты

Благодаря гранту от армии США в Калифорнийском университете в Ирвайне проводятся исследования синтетической телепатии с использованием субвокализации под руководством ученого Майка Д'Змуры. ^[14]

Исследовательская лаборатория Эймса НАСА в Маунтин -Вью , Калифорния, под руководством Чарльза Йоргенсена проводит исследования субвокализации. ^{[ необходима ссылка ]}

Научно-исследовательская программа по интерфейсу «мозг-компьютер» в Центре Уодсворта при Департаменте здравоохранения штата Нью-Йорк подтвердила существующую способность расшифровывать согласные и гласные из воображаемой речи, что позволяет осуществлять коммуникацию на уровне мозга с использованием воображаемой речи ^[15] , однако с использованием ЭЭГ вместо методов субвокализации.

Патенты США на технологии бесшумной связи включают: Патент США 6587729 «Устройство для звуковой передачи речи с использованием эффекта радиочастотного слуха» ^[16] Патент США 5159703 «Система бесшумной подсознательной презентации» ^[17] Патент США 6011991 «Система и метод связи, включающий анализ мозговых волн и/или использование мозговой активности» ^[18] Патент США 3951134 «Устройство и метод для удаленного мониторинга и изменения мозговых волн» ^[19] Последние два основаны на анализе мозговых волн.

В художественной литературе

Расшифровка безмолвной речи с помощью компьютера сыграла важную роль в истории Артура Кларка и связанном с ней фильме Стэнли Кубрика «Космическая одиссея» . В этом фильме HAL 9000 , компьютер, управляющий космическим кораблём Discovery One , направляющимся к Юпитеру, обнаруживает заговор астронавтов миссии Дэйва Боумена и Фрэнка Пула с целью его дезактивации посредством чтения по губам их разговоров. ^[20]
В серии Орсона Скотта Карда (включая «Игру Эндера ») с искусственным интеллектом можно разговаривать, пока главный герой носит датчик движения в челюсти, что позволяет ему общаться с ИИ, не издавая шума. Он также носит ушной имплантат.
В романе «Оратор от имени мертвых» и последующих романах автор Орсон Скотт Кард описал ушной имплантат, называемый «драгоценностью», который позволяет осуществлять подсознательную коммуникацию с компьютерными системами.
Автор Роберт Дж. Сойер использовал субвокальное распознавание, чтобы отдавать беззвучные команды кибернетическим «имплантатам-компаньонам», используемым продвинутыми неандертальскими персонажами в своей научно-фантастической трилогии « Неандерталец Параллакс» .
В книге «Земля » Дэвид Брин описывает эту технологию и ее использование в качестве обычного механизма в недалеком будущем.
В фильме «Внизу и в волшебном королевстве » Кори Доктороу заставляет технологию сотовой связи замолчать с помощью кохлеарного импланта и микрофона, подключаемого к горлу, чтобы улавливать субвокализации.
В трилогии «Sprawl » Уильяма Гибсона часто используются системы субвокализации в различных устройствах.
В романах серии «Компания Кейджа Бейкера » бессмертные киборги общаются посредством голосовых команд.
В удостоенном премии «Хьюго» произведении Дэна Симмонса «Песни Гипериона» персонажи часто используют субвокализацию для общения.
В романах Иэна М. Бэнкса из цикла «Культура» более высокоразвитые виды часто общаются посредством подсознательных технологий.
В Deus Ex: Human Revolution (2011) главный герой оснащен имплантом субвокализации для отправки скрытых сообщений (и соответствующим кохлеарным имплантом для приема скрытых сообщений).
В настольных ролевых играх и серии видеоигр Shadowrun персонажи игроков в некоторых случаях могут общаться посредством субвокальных микрофонов.
В «Паранойе » все граждане могут общаться с компьютером посредством своих имплантатов «коры головного мозга».
В трилогии «Откровение » Алистера Рейнольдса «Космическое откровение » часто используются системы субвокализации в различных устройствах.

Смотрите также

Ссылки

^ Ширли, Джон (2013-05-01). Новые табу. PM Press. ISBN 9781604868715. Получено 14 апреля 2017 г. .
^ Denby B, Schultz T, Honda K, Hueber T, Gilbert JM, Brumberg JS (2010). Бесшумные речевые интерфейсы. Speech Communication 52: 270–287. doi :10.1016/j.specom.2009.08.002
^ ab Hueber T, Benaroya EL, Chollet G, Denby B, Dreyfus G, Stone M. (2010). Разработка бесшумного речевого интерфейса, управляемого ультразвуком и оптическими изображениями языка и губ. Speech Communication, 52 288–300. doi :10.1016/j.specom.2009.11.004
^ Ван, Дж., Самал, А. и Грин, Дж. Р. (2014). Предварительное испытание интерактивного беззвучного речевого интерфейса в реальном времени на основе электромагнитного артикулографа, 5-й семинар ACL/ISCA по обработке речи и языка для вспомогательных технологий, Балтимор, Мэриленд, 38-45.
^ Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевая коммуникация, 52: 354–366. doi :10.1016/j.specom.2009.11.003
^ Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевая коммуникация, 52: 341-353. doi :10.1016/j.specom.2009.12.002
^ Хирахара Т., Отани М., Шимизу С., Тода Т., Накамура К., Накадзима Й., Шикано К. (2010). Улучшение беззвучной речи с использованием резонансных сигналов голосового тракта, проводимых телом. Речевая коммуникация, 52:301–313. doi :10.1016/j.specom.2009.12.001
^ Brumberg JS, Nieto-Castanon A, Kennedy PR, Guenther FH (2010). Интерфейсы мозг-компьютер для речевой коммуникации. Speech Communication 52:367–379. 2010 doi :10.1016/j.specom.2010.01.001
^ Дэн Y., Патель R., Хитон JT, Колби G., Гилмор LD, Кабрера J., Рой SH, Де Лука CJ, Мельцнер GS (2009). Распознавание нарушенной речи с использованием акустических и sEMG сигналов. В INTERSPEECH-2009, 644-647.
^ Дэн И., Колби Г., Хитон Дж. Т. и Мельцнер Х. Г. С. (2012). Достижения в обработке сигналов для системы распознавания тихой речи на основе MUTE sEMG. Военная конференция по коммуникациям, MILCOM 2012.
^ Фицпатрик М. (2002). Мобильный телефон с функцией чтения по губам заставит замолчать болтунов. New Scientist.
^ Ванд М., Шульц Т. (2011). Сеанс-независимое распознавание речи на основе ЭМГ. Труды 4-й Международной конференции по биоинспирированным системам и обработке сигналов.
^ "Обзор проекта ‹ AlterEgo". MIT Media Lab . Получено 20 мая 2024 г.
^ "Армия разрабатывает "синтетическую телепатию"". NBC News . 13 октября 2008 г.
^ Пей, Сяомей; Барбур, Деннис Л.; Лойтхардт, Эрик С.; Шалк, Гервин (2011). «Декодирование гласных и согласных в произнесенных и воображаемых словах с использованием электрокортикографических сигналов у людей». Журнал нейронной инженерии . 8 (4): 046028. Bibcode : 2011JNEng...8d6028P. doi : 10.1088/1741-2560/8/4/046028. PMC 3772685. PMID 21750369 .
^ Аппарат для звуковой передачи речи с использованием эффекта радиочастотного слуха
^ Система бесшумной подсознательной презентации
^ Система и метод коммуникации, включая анализ мозговых волн и/или использование мозговой активности
^ Аппарат и метод дистанционного мониторинга и изменения мозговых волн
^ Кларк, Артур С. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 .

Дальнейшее чтение

Блак, Джон (17 марта 2004 г.). "Пресс-релиз NASA". NASA. стр. 1. Архивировано из оригинала 1 января 2024 г.
Армстронг, Дэвид (10 апреля 2006 г.). «Безмолвный оратор». Forbes . стр. 1. Архивировано из оригинала 14 апреля 2006 г.
Саймонит, Том (6 сентября 2007 г.). «Думать о словах — значит управлять инвалидной коляской». New Scientist. стр. 1.

Внешние ссылки

Центр Эймса НАСА

[1] Ширли, Джон (2013-05-01). Новые табу. PM Press. ISBN 9781604868715. Получено 14 апреля 2017 г. .

[2] Denby B, Schultz T, Honda K, Hueber T, Gilbert JM, Brumberg JS (2010). Бесшумные речевые интерфейсы. Speech Communication 52: 270–287. doi :10.1016/j.specom.2009.08.002

[Hueber-3] Hueber T, Benaroya EL, Chollet G, Denby B, Dreyfus G, Stone M. (2010). Разработка бесшумного речевого интерфейса, управляемого ультразвуком и оптическими изображениями языка и губ. Speech Communication, 52 288–300. doi :10.1016/j.specom.2009.11.004

[4] Ван, Дж., Самал, А. и Грин, Дж. Р. (2014). Предварительное испытание интерактивного беззвучного речевого интерфейса в реальном времени на основе электромагнитного артикулографа, 5-й семинар ACL/ISCA по обработке речи и языка для вспомогательных технологий, Балтимор, Мэриленд, 38-45.

[5] Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевая коммуникация, 52: 354–366. doi :10.1016/j.specom.2009.11.003

[6] Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевая коммуникация, 52: 341-353. doi :10.1016/j.specom.2009.12.002

[7] Хирахара Т., Отани М., Шимизу С., Тода Т., Накамура К., Накадзима Й., Шикано К. (2010). Улучшение беззвучной речи с использованием резонансных сигналов голосового тракта, проводимых телом. Речевая коммуникация, 52:301–313. doi :10.1016/j.specom.2009.12.001

[8] Brumberg JS, Nieto-Castanon A, Kennedy PR, Guenther FH (2010). Интерфейсы мозг-компьютер для речевой коммуникации. Speech Communication 52:367–379. 2010 doi :10.1016/j.specom.2010.01.001

[Deng-9] Дэн Y., Патель R., Хитон JT, Колби G., Гилмор LD, Кабрера J., Рой SH, Де Лука CJ, Мельцнер GS (2009). Распознавание нарушенной речи с использованием акустических и sEMG сигналов. В INTERSPEECH-2009, 644-647.

[Deng2-10] Дэн И., Колби Г., Хитон Дж. Т. и Мельцнер Х. Г. С. (2012). Достижения в обработке сигналов для системы распознавания тихой речи на основе MUTE sEMG. Военная конференция по коммуникациям, MILCOM 2012.

[11] Фицпатрик М. (2002). Мобильный телефон с функцией чтения по губам заставит замолчать болтунов. New Scientist.

[12] Ванд М., Шульц Т. (2011). Сеанс-независимое распознавание речи на основе ЭМГ. Труды 4-й Международной конференции по биоинспирированным системам и обработке сигналов.

[13] "Обзор проекта ‹ AlterEgo". MIT Media Lab . Получено 20 мая 2024 г.

[14] "Армия разрабатывает "синтетическую телепатию"". NBC News . 13 октября 2008 г.

[15] Пей, Сяомей; Барбур, Деннис Л.; Лойтхардт, Эрик С.; Шалк, Гервин (2011). «Декодирование гласных и согласных в произнесенных и воображаемых словах с использованием электрокортикографических сигналов у людей». Журнал нейронной инженерии . 8 (4): 046028. Bibcode : 2011JNEng...8d6028P. doi : 10.1088/1741-2560/8/4/046028. PMC 3772685. PMID 21750369 .

[16] Аппарат для звуковой передачи речи с использованием эффекта радиочастотного слуха

[17] Система бесшумной подсознательной презентации

[18] Система и метод коммуникации, включая анализ мозговых волн и/или использование мозговой активности

[19] Аппарат и метод дистанционного мониторинга и изменения мозговых волн

[20] Кларк, Артур С. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 .