Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E

Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E
1 comentario

Durante los últimos años hemos visto increíbles herramientas basadas en inteligencia artificial en multitud de campos. Empresas como Microsoft también disponen de un sinfín de propuestas en este aspecto, y una de sus más recientes es VALL-E.

VALL-E (no confundirla con DALL-E) es un modelo de lenguaje capaz de generar audio con la misma voz y entonación que el interlocutor. Lo único que necesita la herramienta es un audio de como mínimo tres segundos para que pueda comenzar a procesar.

Una IA capaz de imitar hasta la entonación y emoción de la persona

Las capacidades de este modelo de lenguaje quedan detalladas en el informe publicado por los investigadores. VALL-E ha sido entrenado con más de 60.000 horas de audios en inglés. A través de esta tecnología el usuario puede sintetizar un audio personalizado a partir de la voz de una persona distinta. De hecho, en la investigación reflejan el éxito de las pruebas realizadas.

Overview

"Los resultados de los experimentos muestran que VALL-E supera significativamente al sistema TTS zero-shot más puntero en términos de naturalidad del habla y similitud del hablante. "Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje acústico en síntesis".

A través de su página de GitHub existen multitud de ejemplos en los que podemos ver qué tal funciona la herramienta. Aquí vemos que en un audio de unos pocos segundos, el sistema puede establecer la voz y entonación para un mensaje completamente distinto. Aunque impresionante, el resultado sigue teniendo un resquicio 'robótico' en el audio, algo que suele ocurrir en este tipo de propuestas.

Sin embargo, quizás lo más sorprendente es la capacidad que tiene la herramienta de imitar las emociones que se captan del mensaje. Es decir, si alguien denota enfado, o tristeza, la IA podrá recoger la entonación y aplicarla a un mensaje totalmente distinto.

Aunque el rendimiento de la herramienta es bastante bueno, es probable que Microsoft siga mejorándola hasta que el cambio sea imperceptible. Eso sí, aunque la tecnología puede ofrecer grandes beneficios, también puede ser muy peligrosa, sobre todo a la hora de suplantar la identidad de alguien.

Imagen | BandLab

Temas
Inicio