Модель Фудзисаки

Контур F0 получается путем добавления фразовых и акцентных компонентов к базовой частоте.

Модель Фудзисаки представляет собой суперпозиционную модель для представления контура речи F 0 .

Согласно модели, контур F 0 формируется в результате суперпозиции выходов двух линейных фильтров второго порядка с базовым значением частоты. Линейные фильтры второго порядка предназначены для генерации фразовых и акцентных компонентов речи. Базовая частота — это минимальное значение частоты говорящего. Другими словами, контур F 0 получается путем сложения базовой частоты, фразовых компонентов и акцентных компонентов. Модель была предложена Хироей Фудзисаки.

вн ( Ф 0 ( т ) ) = вн ( Ф б ) + я = 1 я А п я Г п я ( т Т 0 я ) + дж = 1 Дж. А а дж { Г а дж ( т Т 1 дж ) Г а дж ( т Т 2 дж ) } {\displaystyle \ln(F_{0}(t))=\ln(F_{b})+\sum _{i=1}^{I}A_{pi}G_{pi}(t-T_{0i})+\sum _{j=1}^{J}A_{aj}\{G_{aj}(t-T_{1j})-G_{aj}(t-T_{2j})\}}
где
Г п я ( т ) = α я 2 т эксп ( α я т ) т 0 ; = 0 т 0 {\displaystyle G_{pi}(t)=\alpha _{i}^{2}t\,\exp(-\alpha _{i}t)\quad \forall t\geq 0;=0\forall t\leq 0}
Г а я ( т ) = мин [ γ дж , 1 ( 1 + β дж т ) эксп ( β дж т ) ] т 0 ; = 0 т 0 {\displaystyle G_{ai}(t)=\min[\gamma _{j},\,1-(1+\beta _{j}t)\,\exp(-\beta _{j}t)]\quad \forall t\geq 0;=0\forall t\leq 0}

Где,

Ф б {\displaystyle F_{b}} : уровень смещения, на котором все компоненты фразы и акцента накладываются друг на друга, образуя контур, Ф 0 {\displaystyle F_{0}}

я {\displaystyle Я}  : количество фразовых команд,

Дж. {\displaystyle J}  : количество команд ударения,

А п я {\displaystyle A_{пи}}  : величина i-й фразовой команды,

А а дж {\displaystyle A_{aj}}  : амплитуда j-й акцентной команды,

Т 0 я {\displaystyle T_{0i}}  : момент появления i-й фразовой команды,

Т 1 дж {\displaystyle T_{1j}}  : начало j-й ударной команды,

Т 2 дж {\displaystyle T_{2j}}  : конец j-й ударной команды,

α я {\displaystyle \альфа _{я}}  : собственная угловая частота механизма управления фразами для i-й фразовой команды,

β дж {\displaystyle \beta _{j}}  : собственная угловая частота механизма управления акцентом для j-й команды акцента, и

γ дж {\displaystyle \гамма _{j}}  : максимальный уровень акцентного компонента для j-й акцентной команды.


Ссылки

  • Введение в синтез текста в речь [1]
  • Кейкичи Хиросе; Хироя Фудзисаки; Микио Ямагучи (1984). «Синтез по правилу контуров основной частоты голоса разговорного японского языка на основе лингвистической информации». IEEE .
  1. ^ Дютуа, Тьерри (2001). Введение в синтез текста в речь . Kluwer Academic Publishers. ISBN 1-4020-0369-2.
Взято с "https://en.wikipedia.org/w/index.php?title=Fujisaki_model&oldid=1120877005"