Hace unos días te mostrábamos las capacidades de Microsoft para crear hologramas que lograban hacernos hablar otros idiomas, gracias a la tecnología neural text to speech. La compañía no está sola en este tipo de propósitos, y es que Amazon ha anunciado la disponibilidad general de su neural text to speech que, en su caso y como curiosidad, logra generar un discurso con la clásica entonación y ritmo discursivo de un presentador de televisión o radio (o YouTube, ¿por qué no?).
Esto se logra gracias al aprendizaje automático, capaz de imitar la forma en la que habla una persona para intentar hacer el lenguaje más natural, y alejado del discurso robótico que han tenido durante años este tipo herramientas. Amazon ha presentado estas novedades en la página de AWS bajo el marco de Amazon Polly, su servicio en la nube que convierte el texto a voz, de la forma más realista posible.
En búsqueda del discurso más realista
Amazon destaca la importancia de que la inteligencia artificial sea capaz de generar discursos realistas. Para trabajar sobre ello crearon Amazon Polly, diseñado para "abordar muchos de los aspectos más desafiantes de la generación del habla". Este proyecto lleva en marcha desde 2016, pero hoy es el gran día para Amazon.
Anuncian de forma oficial la disponibilidad de su NTTS, disponible en hasta 11 voces. El funcionamiento de dicho NTTS puede probarse en la consola de AWS, para comprobar cómo son capaces de convertir texto a voz.
Del mismo modo, han hecho hincapié en su estilo de presentador de noticias. Resulta curioso ver cómo funciona el modelo de voz estándar, con un output sin procesar en "modo presentador", y cómo cambia el discurso cuando usan su NTTS con las modificaciones pertinentes.
Voz estándar
Voz procesada por el NTTS
Como podemos apreciar, el segundo audio muestra un discurso bastante más fluido, gracias a las mejoras que aporta el NTTS. Estas novedades están disponibles desde hoy en Estados Unidos y Europa, marcando la posición de Amazon de cara a los NTTS.
Vía | TechCrunch
Ver 3 comentarios