База данных неродной речи

База данных речевых сообщений

База данных неродной речи — это речевая база данных неродного произношения английского языка . Такие базы данных используются при разработке: многоязычных систем автоматического распознавания речи , систем преобразования текста в речь , тренажеров произношения и систем обучения второму языку . ^[1]

Список

Таблица 1: Сокращения языков, используемых в Таблице 2

арабский	А	японский	Дж.
китайский	С	корейский	К
чешский	Чехия	малазийский	М
датский	Д	норвежский	Н
Голландский	Дат	португальский	П
Английский	Э	Русский	Р
Французский	Ф	испанский	С
немецкий	Г	шведский	Шве
греческий	Гре	тайский	Т
индонезийский	Инд	вьетнамский	В
итальянский	я

Фактическая таблица с информацией о различных базах данных представлена в Таблице 2.

Таблица 2: Обзор неродных баз данных

Корпус	Автор	Доступно на	Языки	#Спикеры	Родной язык	#Утт.	Продолжительность	Дата	Замечания
АМИ ^[2]		Евросоюз	Э		Дут и другие		100ч		записи встреч
ATR-Gruhn ^[3]	Грюн	АТР	Э	96	CGFJ Инд	15000		2004	рейтинг квалификации
BAS Странный Корпус 1+10 ^[4]		ЭЛРА	Г	139	50 стран	7500		1998
Ресторан Беркли ^[5]		ИКСИ	Э	55	GIHCFSJ	2500		1994
Новости вещания ^[6]		НРС	Э					1997
Кембридж-Витт ^[7]	Витт	Кембриджский университет	Э	10	ДЖИКС	1200		1999
Кембридж-Йе ^[8]	Вы	Кембриджский университет	Э	20	С	1600		2005
Детские новости ^[9]	Томокиё	КМУ	Э	62	Дж.К.	7500		2000	частично спонтанный
КЛИПЫ-IMAG ^[10]	загар	КЛИПЫ-IMAG	Ф	15	резюме		6ч	2006
CLSU ^[11]		НРС	Э		22 страны	5000		2007	телефон, спонтанный
КМУ ^[12]		КМУ	Э	64	Г	452	0,9ч		нет в наличии
Кросс Таунс ^[13]	Шаден	У. Бохум	EFGI Чешско-немецкий	161	ЭФГИС	72000	133ч	2006	названия городов
Дюк-Арслан ^[14]	Арслан	Университет Дьюка	Э	93	15 стран	2200		1995	частично телефонная речь
ЭРЖ ^[15]	Минемацу	У. Токио	Э	200	Дж.	68000		2002	рейтинг квалификации
Фишер ^[16]		НРС	Э		много		200ч		телефонная речь
Фитт ^[17]	Фитт	Эдинбургский университет	ФИН Гре	10	Э	700		1995	названия городов
Френки ^[18]		У. Эрланген	Э	19	Г	2148
Испаноязычный ^[19]	Бирн		Э	22	С		20ч	1998	частично спонтанный
HLTC ^[20]		HKUST	Э	44	С		3ч	2010	доступно по запросу
IBM-Fischer ^[21]		ИБМ	Э	40	СФГИ	2000		2002	цифры
iCALL ^[22]^[23]	Чэнь	Я ² Р, А*ЗВЕЗДА	С	305	24 страны	90841	142ч	2015	фонетическая и тональная транскрипции (на пиньине), оценки владения языком
ОСТРОВ ^[24]	Этвелл	ЕС/ЕЛДА	Э	46	ГИ	4000	18ч	2000
Юпитер ^[25]	Зуэ	Массачусетский технологический институт	Э	неизвестный	неизвестный	5146		1999	телефонная речь
K-SEC ^[26]	Ри	SiTEC	Э	неизвестный	К			2004
НРС WSJ1 ^[27]		НРС		10		800	1ч	1994
LeaP ^[28]	Кишечник	Университет Мюнстера	НАПРИМЕР	127	41 разных	73.941 слов	12ч	2003
ТУМАН ^[29]		ЭЛРА	ЭФГ	75	Дат	2200		1996
НАТО HIWIRE ^[30]		НАТО	Э	81	Ф Гре ИС	8100		2007	чистая речь
НАТО M-ATC ^[31]	Голубь	НАТО	Э	622	ФГИС	9833	17ч	2007	сильный фоновый шум
НАТО N4 ^[32]		НАТО	Э	115	неизвестный		7,5 ч.	2006	сильный фоновый шум
Ономастика ^[33]			D Дат EFG Гре INPS Швеция			(121000)		1995	только лексикон
ПФ-СТАР ^[34]		У. Эрланген	Э	57	Г	4627	3,4 ч.	2005	детская речь
Солнечная звезда ^[35]		Евросоюз	Э	100	ГСИПД	40000		1992	парламентская речь
TC-STAR ^[36]	Хеувел	ЭЛДА	ЭС	неизвестный	страны ЕС		13ч	2006	несколько наборов данных
ТЭД ^[37]	Ламель	ЭЛДА	Э	40(188)	много		10ч(47ч)	1994	евроречь 93
ТЛТС ^[38]		DARPA	А		Э		1ч	2004
Токио-Кикуко ^[39]		У. Токио	Дж.	140	10 стран	35000		2004	рейтинг квалификации
Глагольный движитель ^[40]		Мюнхенский университет	Э	44	Г		1,5 часа	1994	очень спонтанно
ВОДИС ^[41]		Евросоюз	ФГ	178	ФГ	2500		1998	о автомобильной навигации
WP арабский ^[42]	Рокка	НРС	А	35	Э	800	1ч	2002
WP Русский ^[43]	Рокка	НРС	Р	26	Э	2500	2ч	2003
WP Испанский ^[44]	Морган	НРС	С		Э			2006
WSJ говорил ^[45]			Э	10	неизвестный	800		1993

Легенда

В таблице неродных баз данных используются некоторые сокращения названий языков. Они перечислены в Таблице 1. Таблица 2 дает следующую информацию о каждом корпусе: Название корпуса, учреждение, где корпус может быть получен, или, по крайней мере, должна быть доступна дополнительная информация, язык, на котором фактически говорили носители языка, количество носителей языка, родной язык носителей языка, общее количество неродных высказываний, содержащихся в корпусе, продолжительность в часах неродной части, дата первой публичной ссылки на этот корпус, некоторый свободный текст, освещающий особые аспекты этой базы данных, и ссылка на другую публикацию. Ссылка в последнем поле в большинстве случаев относится к статье, которая специально посвящена описанию этого корпуса первоначальными собирателями. В некоторых случаях такую статью идентифицировать не удалось. В этих случаях ссылается на статью, которая использует этот корпус.

Некоторые записи оставлены пустыми, а другие помечены как неизвестные. Разница здесь в том, что пустые записи относятся к атрибутам, значение которых просто неизвестно. Однако неизвестные записи указывают на то, что в самой базе данных нет информации об этом атрибуте. Например, в базе данных погоды Юпитера ^[46] не указано никакой информации о происхождении говорящих. Поэтому эти данные будут менее полезны для проверки обнаружения акцента или решения подобных проблем.

Где это возможно, имя является стандартным именем корпуса, однако для некоторых меньших корпусов не было установленного имени, и поэтому пришлось создать идентификатор. В таких случаях используется комбинация учреждения и сборщика базы данных.

В случае, если базы данных содержат родную и неродную речь, перечисляются только атрибуты неродной части корпуса. Большинство корпусов представляют собой коллекции прочитанной речи. Если же корпус состоит частично или полностью из спонтанных высказываний, это указывается в столбце Specials.

Ссылки

^ М. Рааб, Р. Грун и Э. Ноэт, Базы данных неродной речи , в Трудах ASRU, Киото, Япония, 2007.
^ Проект AMI, «Корпус собраний AMI» [1].
^ Р. Грун, Т. Синкарек и С. Накамура, «База данных по неродному английскому языку с несколькими акцентами», в ASJ, 2004.
↑ Мюнхенский университет, «Баварский архив странных корпусов речевых сигналов», [2].
^ Джурафски и др., «Проект ресторана Беркли», Proc. ICSLP 1994.
^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
^ С. Витт, Использование распознавания речи в компьютерном обучении языку , докторская диссертация, Инженерный факультет Кембриджского университета, Великобритания, 1999.
^ Х. Йе и С. Янг, Улучшение показателей распознавания речи у начинающих в устном разговорном взаимодействии для изучения языка , в Proc. Interspeech, Лиссабон, Португалия, 2005.
^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
^ TP Tan и L. Besacier, Французский неродной корпус для автоматического распознавания речи , в LREC, Генуя, Италия, 2006.
^ Т. Ландер, CSLU: Английский с иностранным акцентом, выпуск 1.2 , Технический представитель, LDC, Филадельфия, Пенсильвания, 2007.
^ З. Ван, Т. Шульц и А. Вайбель, Сравнение методов адаптации акустической модели к неродной речи , в Proc. ICASSP , 2003.
^ С. Шаден, Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten , Ph.D. диссертация, Университет Дуйсбург-Эссен, 2006 г.
^ Л. М. Арслан и Дж. Х. Хансен, Частотные характеристики иностранной акцентированной речи , в Трудах ICASSP , Мюнхен, Германия, 1997, стр. 1123-1126.
^ Н. Минемацу и др., Разработка базы данных английской речи, читаемой японцами, для поддержки исследования CALL , в ICA, Киото, Япония, 2004, стр. 577-560.
^ Кристофер Сиери, Дэвид Миллер, Кевин Уокер, Корпус Фишера: ресурс для следующих поколений преобразования речи в текст , Proc. LREC 2004
^ С. Фитт, Произношение незнакомых местных и неместных названий городов , в Proc. of Eurospeech, 1995, стр. 2227-2230.
^ G. Stemmer, E. Noeth и H. Niemann, Акустическое моделирование иностранных слов в системе распознавания немецкой речи , в Proc. Eurospeech, P. Dalsgaard, B. Lindberg и H. Benner, Eds., 2001, т. 4, стр. 2745-2748.
^ W. Byrne, E. Knodt, S. Khudanpur и J. Bernstein, Готово ли автоматическое распознавание речи для неродной речи? Попытка сбора данных и начальные эксперименты по моделированию разговорного испаноязычного английского языка , в STiLL, Мархолмен, Швеция, 1998, стр. 37-40.
^ Y. Li, P. Fung, P. Xu и Y. Liu, Асимметричное акустическое моделирование для распознавания речи на смешанных языках , в ICASSP, Прага, Чехия, 2011, стр. 37-40.
^ В. Фишер, Э. Янке и С. Кунцманн, Недавний прогресс в декодировании неродной речи с помощью многоязычных акустических моделей , в Proc. of Eurospeech, 2003, стр. 3105-3108.
^ Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пэйсюань Ли, Бин Ма, Хайчжоу Ли, Корпус iCALL: Мандаринский китайский язык, на котором говорят не носители языка европейского происхождения , в Proc. of Interspeech, 2015.
^ Нэнси Ф. Чен, Виваек Шивакумар, Махеш Харикумар, Бин Ма, Хайчжоу Ли. Масштабная характеристика ошибок произношения мандаринского диалекта, допускаемых носителями европейских языков , в Proc. of Interspeech, 2013.
^ W. Menzel, E. Atwell, P. Bonaventura, D. Herron, P. Howarth, R. Morton и C. Souter, Корпус ISLE неродного разговорного английского языка , в LREC, Афины, Греция, 2000, стр. 957-963.
^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.
^ SC. Rhee и SH. Lee и SK. Kang и YJ. Lee, Проектирование и создание корпуса корейско-разговорного английского языка (K-SEC) , Proc. ICSLP 2004
^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
^ Гут, У., Неродная речь. Анализ фонологических и фонетических свойств английского и немецкого языков на основе корпусного анализа , Франкфурт-на-Майне: Peter Lang, 2009.
^ TNO Human Factors Research Institute, Mist многоязыковая совместимость в базе данных речевых технологий , Технический отчет, ELRA, Париж, Франция, 2007, Ссылка на каталог ELRA S0238.
^ JC Segura et al., База данных HIWIRE, шумный и неродной англоязычный речевой корпус для общения в кабине экипажа , 2007, [3].
^ С. Пиджен, В. Шен и Д. ван Леувен, Разработка и характеристика неродной базы данных связи военного воздушного движения , в ICSLP, Антверпен, Бельгия, 2007.
^ Л. Бенарусс и др., Корпус родной и неродной речи НАТО (n4) , в Трудах семинара MIST (ESCA-NATO), Льюсден, сентябрь 1999 г.
^ Onomastica Consortium, Межъязыковой лексикон произношения ONOMASTICA , в Proc. Eurospeech, Мадрид, Испания, 1995, стр. 829-832.
^ C. Hacker, T. Cincarek, A. Maier, A. Hessler и E. Noeth, Усиление просодических и произносительных характеристик для обнаружения неправильного произношения у детей, не являющихся носителями языка , в Proc. of ICASSP, Гонолулу, Гавайи, 2007, стр. 197-200.
^ К. Тейшейра, И. Транкозо и А. Серралейру, Распознавание неродного акцента , в Proc. Eurospeech, Родос, Греция, 1997, стр. 2375–2378.
^ Х. Хеувел, К. Шукри, К. Голлан, А. Морено и Д. Мостефа, TC-STAR: Новые языковые ресурсы для целей ASR и SLT , в LREC, Генуя, 2006, стр. 2570-2573.
^ Л. Ф. Ламель , Ф. Шиль, А. Фурсен, Дж. Мариани и Х. Тиллманн, Транслингвальная английская база данных TED , в ICSLP, Иокогама, Япония, сентябрь 1994 г.
^ Н. Моут, Л. Джонсон, А. Сети, Дж. Сильва и С. Нараянан, Тактическое обнаружение языка и моделирование речевых ошибок учащихся: случай тактического обучения арабскому языку для носителей американского варианта английского языка , в Proc. of InSTIL, июнь 2004 г.
^ К. Нишина, Разработка базы данных японской речи, прочитанной неносителями языка, для построения системы CALL , в ICA, Киото, Япония, 2004, стр. 561-564.
^ Мюнхенский университет, проект Verbmobil , [4].
^ И. Транкозо, К. Виана, И. Маскаренас и К. Тейшейра, О выводе правил для национального произношения в навигационных запросах , в Proc. Eurospeech, 1999.
^ А. ЛаРокка и Р. Шуайри, Корпус арабской речи Вест-Пойнта , Технический представитель, LDC, Филадельфия, Пенсильвания, 2002.
^ А. ЛаРокка и К. Томей, Корпус русской речи Вест -Пойнта, Технический представитель, LDC, Филадельфия, Пенсильвания, 2003.
^ Дж. Морган, «Героическая испанская речь в Вест-Пойнте» , Технический представитель, LDC, Филадельфия, Пенсильвания, 2006.
^ И. Амдал, Ф. Коркмазский и А.С. Сурендран, Совместное моделирование произношения неносителей языка с использованием методов, основанных на данных , в ICSLP, Пекин, Китай, 2000, стр. 622-625.
^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.

[1] М. Рааб, Р. Грун и Э. Ноэт, Базы данных неродной речи , в Трудах ASRU, Киото, Япония, 2007.

[2] Проект AMI, «Корпус собраний AMI» [1].

[3] Р. Грун, Т. Синкарек и С. Накамура, «База данных по неродному английскому языку с несколькими акцентами», в ASJ, 2004.

[4] Мюнхенский университет, «Баварский архив странных корпусов речевых сигналов», [2].

[5] Джурафски и др., «Проект ресторана Беркли», Proc. ICSLP 1994.

[6] Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.

[7] С. Витт, Использование распознавания речи в компьютерном обучении языку , докторская диссертация, Инженерный факультет Кембриджского университета, Великобритания, 1999.

[8] Х. Йе и С. Янг, Улучшение показателей распознавания речи у начинающих в устном разговорном взаимодействии для изучения языка , в Proc. Interspeech, Лиссабон, Португалия, 2005.

[9] Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.

[10] TP Tan и L. Besacier, Французский неродной корпус для автоматического распознавания речи , в LREC, Генуя, Италия, 2006.

[11] Т. Ландер, CSLU: Английский с иностранным акцентом, выпуск 1.2 , Технический представитель, LDC, Филадельфия, Пенсильвания, 2007.

[12] З. Ван, Т. Шульц и А. Вайбель, Сравнение методов адаптации акустической модели к неродной речи , в Proc. ICASSP , 2003.

[13] С. Шаден, Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten , Ph.D. диссертация, Университет Дуйсбург-Эссен, 2006 г.

[14] Л. М. Арслан и Дж. Х. Хансен, Частотные характеристики иностранной акцентированной речи , в Трудах ICASSP , Мюнхен, Германия, 1997, стр. 1123-1126.

[15] Н. Минемацу и др., Разработка базы данных английской речи, читаемой японцами, для поддержки исследования CALL , в ICA, Киото, Япония, 2004, стр. 577-560.

[16] Кристофер Сиери, Дэвид Миллер, Кевин Уокер, Корпус Фишера: ресурс для следующих поколений преобразования речи в текст , Proc. LREC 2004

[17] С. Фитт, Произношение незнакомых местных и неместных названий городов , в Proc. of Eurospeech, 1995, стр. 2227-2230.

[18] G. Stemmer, E. Noeth и H. Niemann, Акустическое моделирование иностранных слов в системе распознавания немецкой речи , в Proc. Eurospeech, P. Dalsgaard, B. Lindberg и H. Benner, Eds., 2001, т. 4, стр. 2745-2748.

[19] W. Byrne, E. Knodt, S. Khudanpur и J. Bernstein, Готово ли автоматическое распознавание речи для неродной речи? Попытка сбора данных и начальные эксперименты по моделированию разговорного испаноязычного английского языка , в STiLL, Мархолмен, Швеция, 1998, стр. 37-40.

[20] Y. Li, P. Fung, P. Xu и Y. Liu, Асимметричное акустическое моделирование для распознавания речи на смешанных языках , в ICASSP, Прага, Чехия, 2011, стр. 37-40.

[21] В. Фишер, Э. Янке и С. Кунцманн, Недавний прогресс в декодировании неродной речи с помощью многоязычных акустических моделей , в Proc. of Eurospeech, 2003, стр. 3105-3108.

[22] Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пэйсюань Ли, Бин Ма, Хайчжоу Ли, Корпус iCALL: Мандаринский китайский язык, на котором говорят не носители языка европейского происхождения , в Proc. of Interspeech, 2015.

[23] Нэнси Ф. Чен, Виваек Шивакумар, Махеш Харикумар, Бин Ма, Хайчжоу Ли. Масштабная характеристика ошибок произношения мандаринского диалекта, допускаемых носителями европейских языков , в Proc. of Interspeech, 2013.

[24] W. Menzel, E. Atwell, P. Bonaventura, D. Herron, P. Howarth, R. Morton и C. Souter, Корпус ISLE неродного разговорного английского языка , в LREC, Афины, Греция, 2000, стр. 957-963.

[25] К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.

[26] SC. Rhee и SH. Lee и SK. Kang и YJ. Lee, Проектирование и создание корпуса корейско-разговорного английского языка (K-SEC) , Proc. ICSLP 2004

[27] Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.

[28] Гут, У., Неродная речь. Анализ фонологических и фонетических свойств английского и немецкого языков на основе корпусного анализа , Франкфурт-на-Майне: Peter Lang, 2009.

[29] TNO Human Factors Research Institute, Mist многоязыковая совместимость в базе данных речевых технологий , Технический отчет, ELRA, Париж, Франция, 2007, Ссылка на каталог ELRA S0238.

[30] JC Segura et al., База данных HIWIRE, шумный и неродной англоязычный речевой корпус для общения в кабине экипажа , 2007, [3].

[31] С. Пиджен, В. Шен и Д. ван Леувен, Разработка и характеристика неродной базы данных связи военного воздушного движения , в ICSLP, Антверпен, Бельгия, 2007.

[32] Л. Бенарусс и др., Корпус родной и неродной речи НАТО (n4) , в Трудах семинара MIST (ESCA-NATO), Льюсден, сентябрь 1999 г.

[33] Onomastica Consortium, Межъязыковой лексикон произношения ONOMASTICA , в Proc. Eurospeech, Мадрид, Испания, 1995, стр. 829-832.

[34] C. Hacker, T. Cincarek, A. Maier, A. Hessler и E. Noeth, Усиление просодических и произносительных характеристик для обнаружения неправильного произношения у детей, не являющихся носителями языка , в Proc. of ICASSP, Гонолулу, Гавайи, 2007, стр. 197-200.

[35] К. Тейшейра, И. Транкозо и А. Серралейру, Распознавание неродного акцента , в Proc. Eurospeech, Родос, Греция, 1997, стр. 2375–2378.

[36] Х. Хеувел, К. Шукри, К. Голлан, А. Морено и Д. Мостефа, TC-STAR: Новые языковые ресурсы для целей ASR и SLT , в LREC, Генуя, 2006, стр. 2570-2573.

[37] Л. Ф. Ламель , Ф. Шиль, А. Фурсен, Дж. Мариани и Х. Тиллманн, Транслингвальная английская база данных TED , в ICSLP, Иокогама, Япония, сентябрь 1994 г.

[38] Н. Моут, Л. Джонсон, А. Сети, Дж. Сильва и С. Нараянан, Тактическое обнаружение языка и моделирование речевых ошибок учащихся: случай тактического обучения арабскому языку для носителей американского варианта английского языка , в Proc. of InSTIL, июнь 2004 г.

[39] К. Нишина, Разработка базы данных японской речи, прочитанной неносителями языка, для построения системы CALL , в ICA, Киото, Япония, 2004, стр. 561-564.

[40] Мюнхенский университет, проект Verbmobil , [4].

[41] И. Транкозо, К. Виана, И. Маскаренас и К. Тейшейра, О выводе правил для национального произношения в навигационных запросах , в Proc. Eurospeech, 1999.

[42] А. ЛаРокка и Р. Шуайри, Корпус арабской речи Вест-Пойнта , Технический представитель, LDC, Филадельфия, Пенсильвания, 2002.

[43] А. ЛаРокка и К. Томей, Корпус русской речи Вест -Пойнта, Технический представитель, LDC, Филадельфия, Пенсильвания, 2003.

[44] Дж. Морган, «Героическая испанская речь в Вест-Пойнте» , Технический представитель, LDC, Филадельфия, Пенсильвания, 2006.

[45] И. Амдал, Ф. Коркмазский и А.С. Сурендран, Совместное моделирование произношения неносителей языка с использованием методов, основанных на данных , в ICSLP, Пекин, Китай, 2000, стр. 622-625.

[46] К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.