Nuevas 'deepfakes' permiten poner palabras en la boca de cualquiera con simplemente escribirlas

Los problemas con la verdad que se prevén con la irrupción de las deepfakes pueden ir a más conforme avanzan las investigaciones en este campo. El último ejemplo de esta tecnología lo deja claro: basta editar un campo de texto para cambiar lo que dice una persona en un vídeo.

Esta inquietante manipulación la hace posible un software basado en aprendizaje automático que permite añadir, eliminar o cambiar las palabras que alguien pronuncia en una grabación. El trabajo ha sido realizado por científicos de la Universidad de Stanford, el Instituto Max Planck de Informática, la Universidad de Princeton y Adobe Research, y muestra cómo día a día es más fácil crear deepfakes.

En Xataka

Con los deepfakes tendremos un problema con la verdad: ni los vídeos servirán como pruebas

Escribe lo que quieres que alguien diga y el software se encargará de hacerlo realidad

La investigación de estos científicos, presentada en un paper publicado en The Verge y titulado 'Text-based Editing of Talking-head Video', explica los métodos empleados para editar el vídeo "basado en su transcripción para producir un vídeo de salida realista en el que se ha modificado el diálogo del orador".

Las técnicas empleadas para hacer posible la edición de lo que dice alguien en una grabación son tremendamente complejas pero, como hemos visto, su aplicación es extremadamente sencilla una vez desarrollado el software que las lleva a cabo de forma automática.

Esta última investigación suma un extra de preocupación respecto a un futuro en el que la manipulación masiva en vídeo puede estar a la orden del día

El trabajo para hacerlo posible se puede resumir en tres fases:

La primera, contempla el escaneo de un vídeo del sujeto y el aislamiento de los fonemas que pronuncia. Esto es la articulación mínima de un sonido vocálico y consonántico.
La segunda fase consiste en emparejar esos fonemas con los visemas correspondientes. O lo que es lo mismo: con la postura que toman los órganos articulatorios de la cara durante la emisión de un fonema.
Finalmente, el último paso es crear un modelo en tres dimensiones de la mitad inferior de la cara.

Combinando los datos obtenidos en cada una de las fases y escribiendo el texto que se desee, este software crea una animación del rostro de la persona en la que realmente parece decir lo que se ha escrito y nunca se ha pronunciado frente a una cámara. Es una tecnología con ciertas limitaciones que, sin embargo, suma un extra de preocupación respecto a un futuro en el que la manipulación masiva en vídeo puede estar a la orden del día.

Según explica The Verge, los vídeos falsos obtenidos por los investigadores fueron mostrados a 138 individuos para que dijesen si les parecían imágenes reales o no. El 60 % de ellos creyeron que las ediciones eran imágenes reales. "Eso puede sonar bastante bajo, pero sólo el 80 % de ese mismo grupo pensó que el material original, sin editar, también era legítimo", explican.

El software que hace posible estas manipulaciones no está disponible públicamente, aunque compañías como Adobe llevan años compartiendo detalles sobre un prototipo de aplicación llamada VoCo que promete poner en la boca de cualquiera palabras que nunca dijo.

Escribe lo que quieres que alguien diga y el software se encargará de hacerlo realidad

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios