База данных речевых сообщений
База данных неродной речи — это речевая база данных неродного произношения английского языка . Такие базы данных используются при разработке: многоязычных систем автоматического распознавания речи , систем преобразования текста в речь , тренажеров произношения и систем обучения второму языку . [1]
Список
Таблица 1: Сокращения языков, используемых в Таблице 2арабский | А | японский | Дж. | китайский | С | корейский | К | чешский | Чехия | малазийский | М | датский | Д | норвежский | Н | Голландский | Дат | португальский | П | Английский | Э | Русский | Р | Французский | Ф | испанский | С | немецкий | Г | шведский | Шве | греческий | Гре | тайский | Т | индонезийский | Инд | вьетнамский | В | итальянский | я | | |
|
Фактическая таблица с информацией о различных базах данных представлена в Таблице 2.
Таблица 2: Обзор неродных баз данныхКорпус | Автор | Доступно на | Языки | #Спикеры | Родной язык | #Утт. | Продолжительность | Дата | Замечания |
---|
АМИ [2] | | Евросоюз | Э | | Дут и другие | | 100ч | | записи встреч | ATR-Gruhn [3] | Грюн | АТР | Э | 96 | CGFJ Инд | 15000 | | 2004 | рейтинг квалификации | BAS Странный Корпус 1+10 [4] | | ЭЛРА | Г | 139 | 50 стран | 7500 | | 1998 | | Ресторан Беркли [5] | | ИКСИ | Э | 55 | GIHCFSJ | 2500 | | 1994 | | Новости вещания [6] | | НРС | Э | | | | | 1997 | | Кембридж-Витт [7] | Витт | Кембриджский университет | Э | 10 | ДЖИКС | 1200 | | 1999 | | Кембридж-Йе [8] | Вы | Кембриджский университет | Э | 20 | С | 1600 | | 2005 | | Детские новости [9] | Томокиё | КМУ | Э | 62 | Дж.К. | 7500 | | 2000 | частично спонтанный | КЛИПЫ-IMAG [10] | загар | КЛИПЫ-IMAG | Ф | 15 | резюме | | 6ч | 2006 | | CLSU [11] | | НРС | Э | | 22 страны | 5000 | | 2007 | телефон, спонтанный | КМУ [12] | | КМУ | Э | 64 | Г | 452 | 0,9ч | | нет в наличии | Кросс Таунс [13] | Шаден | У. Бохум | EFGI Чешско-немецкий | 161 | ЭФГИС | 72000 | 133ч | 2006 | названия городов | Дюк-Арслан [14] | Арслан | Университет Дьюка | Э | 93 | 15 стран | 2200 | | 1995 | частично телефонная речь | ЭРЖ [15] | Минемацу | У. Токио | Э | 200 | Дж. | 68000 | | 2002 | рейтинг квалификации | Фишер [16] | | НРС | Э | | много | | 200ч | | телефонная речь | Фитт [17] | Фитт | Эдинбургский университет | ФИН Гре | 10 | Э | 700 | | 1995 | названия городов | Френки [18] | | У. Эрланген | Э | 19 | Г | 2148 | | | | Испаноязычный [19] | Бирн | | Э | 22 | С | | 20ч | 1998 | частично спонтанный | HLTC [20] | | HKUST | Э | 44 | С | | 3ч | 2010 | доступно по запросу | IBM-Fischer [21] | | ИБМ | Э | 40 | СФГИ | 2000 | | 2002 | цифры | iCALL [22] [23] | Чэнь | Я 2 Р, А*ЗВЕЗДА | С | 305 | 24 страны | 90841 | 142ч | 2015 | фонетическая и тональная транскрипции (на пиньине), оценки владения языком | ОСТРОВ [24] | Этвелл | ЕС/ЕЛДА | Э | 46 | ГИ | 4000 | 18ч | 2000 | | Юпитер [25] | Зуэ | Массачусетский технологический институт | Э | неизвестный | неизвестный | 5146 | | 1999 | телефонная речь | K-SEC [26] | Ри | SiTEC | Э | неизвестный | К | | | 2004 | | НРС WSJ1 [27] | | НРС | | 10 | | 800 | 1ч | 1994 | | LeaP [28] | Кишечник | Университет Мюнстера | НАПРИМЕР | 127 | 41 разных | 73.941 слов | 12ч | 2003 | | ТУМАН [29] | | ЭЛРА | ЭФГ | 75 | Дат | 2200 | | 1996 | | НАТО HIWIRE [30] | | НАТО | Э | 81 | Ф Гре ИС | 8100 | | 2007 | чистая речь | НАТО M-ATC [31] | Голубь | НАТО | Э | 622 | ФГИС | 9833 | 17ч | 2007 | сильный фоновый шум | НАТО N4 [32] | | НАТО | Э | 115 | неизвестный | | 7,5 ч. | 2006 | сильный фоновый шум | Ономастика [33] | | | D Дат EFG Гре INPS Швеция | | | (121000) | | 1995 | только лексикон | ПФ-СТАР [34] | | У. Эрланген | Э | 57 | Г | 4627 | 3,4 ч. | 2005 | детская речь | Солнечная звезда [35] | | Евросоюз | Э | 100 | ГСИПД | 40000 | | 1992 | парламентская речь | TC-STAR [36] | Хеувел | ЭЛДА | ЭС | неизвестный | страны ЕС | | 13ч | 2006 | несколько наборов данных | ТЭД [37] | Ламель | ЭЛДА | Э | 40(188) | много | | 10ч(47ч) | 1994 | евроречь 93 | ТЛТС [38] | | DARPA | А | | Э | | 1ч | 2004 | | Токио-Кикуко [39] | | У. Токио | Дж. | 140 | 10 стран | 35000 | | 2004 | рейтинг квалификации | Глагольный движитель [40] | | Мюнхенский университет | Э | 44 | Г | | 1,5 часа | 1994 | очень спонтанно | ВОДИС [41] | | Евросоюз | ФГ | 178 | ФГ | 2500 | | 1998 | о автомобильной навигации | WP арабский [42] | Рокка | НРС | А | 35 | Э | 800 | 1ч | 2002 | | WP Русский [43] | Рокка | НРС | Р | 26 | Э | 2500 | 2ч | 2003 | | WP Испанский [44] | Морган | НРС | С | | Э | | | 2006 | | WSJ говорил [45] | | | Э | 10 | неизвестный | 800 | | 1993 | |
|
Легенда
В таблице неродных баз данных используются некоторые сокращения названий языков. Они перечислены в Таблице 1. Таблица 2 дает следующую информацию о каждом корпусе: Название корпуса, учреждение, где корпус может быть получен, или, по крайней мере, должна быть доступна дополнительная информация, язык, на котором фактически говорили носители языка, количество носителей языка, родной язык носителей языка, общее количество неродных высказываний, содержащихся в корпусе, продолжительность в часах неродной части, дата первой публичной ссылки на этот корпус, некоторый свободный текст, освещающий особые аспекты этой базы данных, и ссылка на другую публикацию. Ссылка в последнем поле в большинстве случаев относится к статье, которая специально посвящена описанию этого корпуса первоначальными собирателями. В некоторых случаях такую статью идентифицировать не удалось. В этих случаях ссылается на статью, которая использует этот корпус.
Некоторые записи оставлены пустыми, а другие помечены как неизвестные. Разница здесь в том, что пустые записи относятся к атрибутам, значение которых просто неизвестно. Однако неизвестные записи указывают на то, что в самой базе данных нет информации об этом атрибуте. Например, в базе данных погоды Юпитера [46] не указано никакой информации о происхождении говорящих. Поэтому эти данные будут менее полезны для проверки обнаружения акцента или решения подобных проблем.
Где это возможно, имя является стандартным именем корпуса, однако для некоторых меньших корпусов не было установленного имени, и поэтому пришлось создать идентификатор. В таких случаях используется комбинация учреждения и сборщика базы данных.
В случае, если базы данных содержат родную и неродную речь, перечисляются только атрибуты неродной части корпуса. Большинство корпусов представляют собой коллекции прочитанной речи. Если же корпус состоит частично или полностью из спонтанных высказываний, это указывается в столбце Specials.
Ссылки
- ^ М. Рааб, Р. Грун и Э. Ноэт, Базы данных неродной речи , в Трудах ASRU, Киото, Япония, 2007.
- ^ Проект AMI, «Корпус собраний AMI» [1].
- ^ Р. Грун, Т. Синкарек и С. Накамура, «База данных по неродному английскому языку с несколькими акцентами», в ASJ, 2004.
- ↑ Мюнхенский университет, «Баварский архив странных корпусов речевых сигналов», [2].
- ^ Джурафски и др., «Проект ресторана Беркли», Proc. ICSLP 1994.
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
- ^ С. Витт, Использование распознавания речи в компьютерном обучении языку , докторская диссертация, Инженерный факультет Кембриджского университета, Великобритания, 1999.
- ^ Х. Йе и С. Янг, Улучшение показателей распознавания речи у начинающих в устном разговорном взаимодействии для изучения языка , в Proc. Interspeech, Лиссабон, Португалия, 2005.
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
- ^ TP Tan и L. Besacier, Французский неродной корпус для автоматического распознавания речи , в LREC, Генуя, Италия, 2006.
- ^ Т. Ландер, CSLU: Английский с иностранным акцентом, выпуск 1.2 , Технический представитель, LDC, Филадельфия, Пенсильвания, 2007.
- ^ З. Ван, Т. Шульц и А. Вайбель, Сравнение методов адаптации акустической модели к неродной речи , в Proc. ICASSP , 2003.
- ^ С. Шаден, Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten , Ph.D. диссертация, Университет Дуйсбург-Эссен, 2006 г.
- ^ Л. М. Арслан и Дж. Х. Хансен, Частотные характеристики иностранной акцентированной речи , в Трудах ICASSP , Мюнхен, Германия, 1997, стр. 1123-1126.
- ^ Н. Минемацу и др., Разработка базы данных английской речи, читаемой японцами, для поддержки исследования CALL , в ICA, Киото, Япония, 2004, стр. 577-560.
- ^ Кристофер Сиери, Дэвид Миллер, Кевин Уокер, Корпус Фишера: ресурс для следующих поколений преобразования речи в текст , Proc. LREC 2004
- ^ С. Фитт, Произношение незнакомых местных и неместных названий городов , в Proc. of Eurospeech, 1995, стр. 2227-2230.
- ^ G. Stemmer, E. Noeth и H. Niemann, Акустическое моделирование иностранных слов в системе распознавания немецкой речи , в Proc. Eurospeech, P. Dalsgaard, B. Lindberg и H. Benner, Eds., 2001, т. 4, стр. 2745-2748.
- ^ W. Byrne, E. Knodt, S. Khudanpur и J. Bernstein, Готово ли автоматическое распознавание речи для неродной речи? Попытка сбора данных и начальные эксперименты по моделированию разговорного испаноязычного английского языка , в STiLL, Мархолмен, Швеция, 1998, стр. 37-40.
- ^ Y. Li, P. Fung, P. Xu и Y. Liu, Асимметричное акустическое моделирование для распознавания речи на смешанных языках , в ICASSP, Прага, Чехия, 2011, стр. 37-40.
- ^ В. Фишер, Э. Янке и С. Кунцманн, Недавний прогресс в декодировании неродной речи с помощью многоязычных акустических моделей , в Proc. of Eurospeech, 2003, стр. 3105-3108.
- ^ Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пэйсюань Ли, Бин Ма, Хайчжоу Ли, Корпус iCALL: Мандаринский китайский язык, на котором говорят не носители языка европейского происхождения , в Proc. of Interspeech, 2015.
- ^ Нэнси Ф. Чен, Виваек Шивакумар, Махеш Харикумар, Бин Ма, Хайчжоу Ли. Масштабная характеристика ошибок произношения мандаринского диалекта, допускаемых носителями европейских языков , в Proc. of Interspeech, 2013.
- ^ W. Menzel, E. Atwell, P. Bonaventura, D. Herron, P. Howarth, R. Morton и C. Souter, Корпус ISLE неродного разговорного английского языка , в LREC, Афины, Греция, 2000, стр. 957-963.
- ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.
- ^ SC. Rhee и SH. Lee и SK. Kang и YJ. Lee, Проектирование и создание корпуса корейско-разговорного английского языка (K-SEC) , Proc. ICSLP 2004
- ^ Л. Томокиё, Распознавание неродной речи: характеристика и адаптация к неродному использованию в распознавании речи , докторская диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
- ^ Гут, У., Неродная речь. Анализ фонологических и фонетических свойств английского и немецкого языков на основе корпусного анализа , Франкфурт-на-Майне: Peter Lang, 2009.
- ^ TNO Human Factors Research Institute, Mist многоязыковая совместимость в базе данных речевых технологий , Технический отчет, ELRA, Париж, Франция, 2007, Ссылка на каталог ELRA S0238.
- ^ JC Segura et al., База данных HIWIRE, шумный и неродной англоязычный речевой корпус для общения в кабине экипажа , 2007, [3].
- ^ С. Пиджен, В. Шен и Д. ван Леувен, Разработка и характеристика неродной базы данных связи военного воздушного движения , в ICSLP, Антверпен, Бельгия, 2007.
- ^ Л. Бенарусс и др., Корпус родной и неродной речи НАТО (n4) , в Трудах семинара MIST (ESCA-NATO), Льюсден, сентябрь 1999 г.
- ^ Onomastica Consortium, Межъязыковой лексикон произношения ONOMASTICA , в Proc. Eurospeech, Мадрид, Испания, 1995, стр. 829-832.
- ^ C. Hacker, T. Cincarek, A. Maier, A. Hessler и E. Noeth, Усиление просодических и произносительных характеристик для обнаружения неправильного произношения у детей, не являющихся носителями языка , в Proc. of ICASSP, Гонолулу, Гавайи, 2007, стр. 197-200.
- ^ К. Тейшейра, И. Транкозо и А. Серралейру, Распознавание неродного акцента , в Proc. Eurospeech, Родос, Греция, 1997, стр. 2375–2378.
- ^ Х. Хеувел, К. Шукри, К. Голлан, А. Морено и Д. Мостефа, TC-STAR: Новые языковые ресурсы для целей ASR и SLT , в LREC, Генуя, 2006, стр. 2570-2573.
- ^ Л. Ф. Ламель , Ф. Шиль, А. Фурсен, Дж. Мариани и Х. Тиллманн, Транслингвальная английская база данных TED , в ICSLP, Иокогама, Япония, сентябрь 1994 г.
- ^ Н. Моут, Л. Джонсон, А. Сети, Дж. Сильва и С. Нараянан, Тактическое обнаружение языка и моделирование речевых ошибок учащихся: случай тактического обучения арабскому языку для носителей американского варианта английского языка , в Proc. of InSTIL, июнь 2004 г.
- ^ К. Нишина, Разработка базы данных японской речи, прочитанной неносителями языка, для построения системы CALL , в ICA, Киото, Япония, 2004, стр. 561-564.
- ^ Мюнхенский университет, проект Verbmobil , [4].
- ^ И. Транкозо, К. Виана, И. Маскаренас и К. Тейшейра, О выводе правил для национального произношения в навигационных запросах , в Proc. Eurospeech, 1999.
- ^ А. ЛаРокка и Р. Шуайри, Корпус арабской речи Вест-Пойнта , Технический представитель, LDC, Филадельфия, Пенсильвания, 2002.
- ^ А. ЛаРокка и К. Томей, Корпус русской речи Вест -Пойнта, Технический представитель, LDC, Филадельфия, Пенсильвания, 2003.
- ^ Дж. Морган, «Героическая испанская речь в Вест-Пойнте» , Технический представитель, LDC, Филадельфия, Пенсильвания, 2006.
- ^ И. Амдал, Ф. Коркмазский и А.С. Сурендран, Совместное моделирование произношения неносителей языка с использованием методов, основанных на данных , в ICSLP, Пекин, Китай, 2000, стр. 622-625.
- ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи , диссертация магистра, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.