El documento "Transferir el aprendizaje de la verificación del orador a la síntesis de texto a voz de varios oradores" y muestras de audio están disponibles aquí:
arxiv.org/abs/1806.04558 google.github.io/tacotron/publications/speaker_adaptation/ Una implementación no oficial de este documento está disponible aquí:
github.com/CorentinJ/Real-Time-Voice-Cloning
www.youtube.com/watch?v=MT_u9Rurrqg
m.youtube.com/watch?v=YB5LoEnSToc
www.youtube.com/watch?v=22ZU1LFrajk
-Oh, Wolfy está bien, cariño. Dónde estás?.
-Tus padres adoptivos han muerto.
Miedo.
me clonan ya a Freddy Mercury y a Elvis, por qué no?
www.youtube.com/watch?v=B8DjTcANBx0
Reference voice: enter an audio filepath of a voice to be cloned (mp3, wav, m4a, flac, ...):
E:TS3sounddefault_maleaway_activated.wav
Loaded file succesfully
Created the embedding
Write a sentence (+-20 words) to be synthesized:
Llamada entrante iniciada. Origen desconocido.
Created the mel spectrogram
Synthesizing the waveform:
{| ████████████████ 85500/86400 | Batch Size: 9 | Gen Rate: 3.8kHz | }float64
Saved output as demo_output_00.wav
Lo clava el cabron....