Una IA que permite a cualquiera, y en cuestión de segundos, clonar la voz de cualquier otra persona (o, por supuesto, de uno mismo) está empezando a arrasar en Internet. El polémico pero popular foro 4chan, sin ir más lejos, viene siendo inundado con deepfakes de audio de celebridades como Emma Watson o Joe Rogan llenos de comentarios violentos o pornográficos.

Y todo desde que, este pasado fin de semana, se abriera públicamente el acceso a la plataforma ElevenLabs, quizá una de las muestras más significativas de cuánto han avanzado las tecnologías basadas en IA dedicadas a la clonación y síntesis de audio.

Al margen del innegable realismo de su síntesis de voz (a años luz de voces enlatadas como Loquendo, tan popular hace años), la propia compañía presume de que los clips de audio que genera requieren de poca o ninguna edición, lo que incentiva su uso en tareas como el doblaje o la producción de audiolibros:

Por supuesto, también ha ayudado a popularizar esta plataforma el hecho de que no presente ninguna de las salvaguardas que acostumbramos a encontrar en los servicios de generación de imágenes para evitar crear ciertos tipos de contenidos 'delicados' y/o basados en personas reales.

En un hilo publicado el pasado lunes en Twitter, ElevenLabs reconoció que parte de sus usuarios estaban abusando de su aplicación: "[observamos] un número creciente de casos de uso indebido de clonación de voz", y advirtió de que son capaces de "rastrear cualquier audio generado hasta el usuario".

Crazy weekend - thank you to everyone for trying out our Beta platform. While we see our tech being overwhelmingly applied to positive use, we also see an increasing number of voice cloning misuse cases. We want to reach out to Twitter community for thoughts and feedback!