Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E

30 meneos

215 clics

Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E

VALL-E (no confundirla con DALL-E) es un modelo de lenguaje capaz de generar audio con la misma voz y entonación que el interlocutor. Lo único que necesita la herramienta es un audio de como mínimo tres segundos para que pueda comenzar a procesar. Las capacidades de este modelo de lenguaje quedan detalladas en el informe publicado por los investigadores. VALL-E ha sido entrenado con más de 60.000 horas de audios en inglés. A través de esta tecnología el usuario puede sintetizar un audio personalizado a partir de la voz de una persona distinta.

| etiquetas: ia , microsoft , vall-e , audio

26 4 0 K 189

17 comentarios

26 4 0 K 189

Click para ver los comentarios

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Tecnología, Internet y juegos

suscripciones por RSS

Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E