Журнал Научное обозрение. Технические науки

2500-0799

Общество с ограниченной ответственностью "Издательский Дом "Академия Естествознания"

10.17513/srts.1418

ART-1418

МОДИФИКАЦИИ АРХИТЕКТУРЫ WAVENET ДЛЯ РЕАЛИЗАЦИИ ВОКОДЕРА В ГЕНЕРАТИВНОЙ МОДЕЛИ ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ

Белоножко

Павел Евгеньевич

Belonozhko

P.E.

iu4-kf@mail.ru

Белов

Юрий Сергеевич

Belov

Y.S.

iu4-kf@mail.ru

Калужский филиал федерального государственного бюджетного образовательного учреждения высшего образования «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)» Bauman Moscow State Technical University (Kaluga Branch)

11 01 2023

6 37 42

This is an open-access article distributed under the terms of the CC BY 4.0 license.

Механизм преобразования текста в речь – это часть программного обеспечения, которая преобразует текст в речь (аудио). На сегодняшний день существует множество моделей, реализующих такой механизм. Среди них основное место занимают параметрическая, последовательная и генеративная модели. Генеративная модель является современной и эффективной, она не является полноценной системой преобразования текста в речь, каждая ее часть – это большой набор моделей и эвристик. Такая модель обычно разделена на конвейер, основными элементами которого являются синтезатор спектрограмм и вокодер, задача которого – построение формы волны по заданной мел-спектрограмме и акустическим характеристикам. WaveNet и Tacotron – это модели нейронных сетей, которые учитывают один шаг конвейера генеративной модели. В частности, WaveNet является нейронным вокодером и отвечает за этап «синтеза формы сигнала» конвейера. Tacotron – это последовательная модель для синтеза спектрограмм, предназначенная для этапа «высокоуровневого синтеза звука». Оригинальная модель WaveNet имеет ряд недостатков, влияющих на качество синтезируемой речи. Поэтому существуют модификации этой модели, улучшающие ее работу. Среди них встречаются подходы линейного предсказания (LP-WaveNet), авторегрессии и кондиционирования (WaveRNN), симбиоз с параметрической моделью (WaveGlow).

The text-to-speech engine is a piece of software that converts text to speech (audio). To date, there are many models that implement such a mechanism. Among them, the main place is occupied by the given, subsequent and generative models. The generating model is modern and voluminous, it does not have a large amount of text-to-speech, each part of it is a set of models and heuristics. Such a model, as a rule, is used on a conveyor, in particular, for which there are a spectrogram synthesizer and a vocoder, the task of which is to build waveforms according to a given chalk spectrogram and acoustic characteristics. WaveNet and Tacotron are neural network models that take into account one step of the generating model pipeline. Specifically, WaveNet is a neural encoder and is responsible for the “shape synthesis” step of the pipeline. Tacotron is a sequential spectrogram synthesis model designed for “high-level audio synthesis” steps. The original WaveNet model has a number of shortcomings that affect the quality of the synthesized speech. As a result, modifications to this model improve its performance. Among them there are approaches of linear prediction (LP-WaveNet), autoregression and dependence (WaveRNN), symbiosis with a parametric model (WaveGlow).

преобразование текста в речь TTS генеративная модель вокодер WaveNet LP WaveRNN WaveGlow

text-to-speech TTS generative model vocoder WaveNet LP WaveRNN WaveGlow

1. Shen J. Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. P. 4779–4783.

2. Cooper E. Zero-Shot Multi-Speaker Text-To-Speech with State-Of-The-Art Neural Speaker Embeddings. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. P. 6184–6188.

3. Weiss R.J., Skerry-Ryan R., Battenberg E. Wave-Tacotron: Spectrogram-Free End-to-End Text-to-Speech Synthesis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2021. P. 5679–5683.

4. Gu Y. ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders. 12th International Symposium on Chinese Spoken Language Processing (ISCSLP). 2021. P. 1–5.

5. Huang W.C. Refined WaveNet Vocoder for Variational Autoencoder Based Voice Conversion. 27th European Signal Processing Conference (EUSIPCO). 2019. P. 1–5.

6. Okamoto T., Toda T., Shiga Y. Tacotron-Based Acoustic Model Using Phoneme Alignment for Practical Neural Text-to-Speech Systems. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2019. P. 214–221.

7. Hwang M.J., Soong F., Song E. LP-WaveNet: Linear Prediction-based WaveNet Speech Synthesis. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). 2020. P. 810–814.