Amazon hace oficial su motor de texto a voz, capaz de imitar la forma de hablar de un presentador de noticias

Hace unos días te mostrábamos las capacidades de Microsoft para crear hologramas que lograban hacernos hablar otros idiomas, gracias a la tecnología neural text to speech. La compañía no está sola en este tipo de propósitos, y es que Amazon ha anunciado la disponibilidad general de su neural text to speech que, en su caso y como curiosidad, logra generar un discurso con la clásica entonación y ritmo discursivo de un presentador de televisión o radio (o YouTube, ¿por qué no?).

Esto se logra gracias al aprendizaje automático, capaz de imitar la forma en la que habla una persona para intentar hacer el lenguaje más natural, y alejado del discurso robótico que han tenido durante años este tipo herramientas. Amazon ha presentado estas novedades en la página de AWS bajo el marco de Amazon Polly, su servicio en la nube que convierte el texto a voz, de la forma más realista posible.

Un vistazo a…

AMAZON AUDIBLE: Cómo es La NUEVA PLATAFORMA DE PODCAST y AUDIOLIBROS de AMAZON

En búsqueda del discurso más realista

Amazon destaca la importancia de que la inteligencia artificial sea capaz de generar discursos realistas. Para trabajar sobre ello crearon Amazon Polly, diseñado para "abordar muchos de los aspectos más desafiantes de la generación del habla". Este proyecto lleva en marcha desde 2016, pero hoy es el gran día para Amazon.

Anuncian de forma oficial la disponibilidad de su NTTS, disponible en hasta 11 voces. El funcionamiento de dicho NTTS puede probarse en la consola de AWS, para comprobar cómo son capaces de convertir texto a voz.

Junto al anuncio de la disponibilidad de su NTTS, destacan el modo presentador, que permite que el texto acabe convertido en un discurso digno de televisión o radio

En Xataka

"Frenar los avances por miedo a la inteligencia artificial es estúpido e inmoral", Andrew McAfee, científico del MIT

Del mismo modo, han hecho hincapié en su estilo de presentador de noticias. Resulta curioso ver cómo funciona el modelo de voz estándar, con un output sin procesar en "modo presentador", y cómo cambia el discurso cuando usan su NTTS con las modificaciones pertinentes.

Voz estándar

Voz procesada por el NTTS

Como podemos apreciar, el segundo audio muestra un discurso bastante más fluido, gracias a las mejoras que aporta el NTTS. Estas novedades están disponibles desde hoy en Estados Unidos y Europa, marcando la posición de Amazon de cara a los NTTS.

Vía | TechCrunch

En búsqueda del discurso más realista

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios