Compartir
Publicidad

Amazon hace oficial su motor de texto a voz, capaz de imitar la forma de hablar de un presentador de noticias

Amazon hace oficial su motor de texto a voz, capaz de imitar la forma de hablar de un presentador de noticias
3 Comentarios
Publicidad
Publicidad

Hace unos días te mostrábamos las capacidades de Microsoft para crear hologramas que lograban hacernos hablar otros idiomas, gracias a la tecnología neural text to speech. La compañía no está sola en este tipo de propósitos, y es que Amazon ha anunciado la disponibilidad general de su neural text to speech que, en su caso y como curiosidad, logra generar un discurso con la clásica entonación y ritmo discursivo de un presentador de televisión o radio (o YouTube, ¿por qué no?).

Esto se logra gracias al aprendizaje automático, capaz de imitar la forma en la que habla una persona para intentar hacer el lenguaje más natural, y alejado del discurso robótico que han tenido durante años este tipo herramientas. Amazon ha presentado estas novedades en la página de AWS bajo el marco de Amazon Polly, su servicio en la nube que convierte el texto a voz, de la forma más realista posible.

En búsqueda del discurso más realista

DAta

Amazon destaca la importancia de que la inteligencia artificial sea capaz de generar discursos realistas. Para trabajar sobre ello crearon Amazon Polly, diseñado para "abordar muchos de los aspectos más desafiantes de la generación del habla". Este proyecto lleva en marcha desde 2016, pero hoy es el gran día para Amazon.

Anuncian de forma oficial la disponibilidad de su NTTS, disponible en hasta 11 voces. El funcionamiento de dicho NTTS puede probarse en la consola de AWS, para comprobar cómo son capaces de convertir texto a voz.

Junto al anuncio de la disponibilidad de su NTTS, destacan el modo presentador, que permite que el texto acabe convertido en un discurso digno de televisión o radio
Ntts

Del mismo modo, han hecho hincapié en su estilo de presentador de noticias. Resulta curioso ver cómo funciona el modelo de voz estándar, con un output sin procesar en "modo presentador", y cómo cambia el discurso cuando usan su NTTS con las modificaciones pertinentes.

Voz estándar

Voz procesada por el NTTS

Como podemos apreciar, el segundo audio muestra un discurso bastante más fluido, gracias a las mejoras que aporta el NTTS. Estas novedades están disponibles desde hoy en Estados Unidos y Europa, marcando la posición de Amazon de cara a los NTTS.

Vía | TechCrunch

Temas
Publicidad
Publicidad
Publicidad
Inicio