Y si no era suficiente con que hoy Meta hubiera lanzado su nuevo modelo de IA rival de GPT, ahora sabemos también que los investigadores de Microsoft han estado desarrollando un nuevo modelo de IA, VASA-1, capaz de crear avatares hiperrealistas a partir de una imagen estática y un clip de voz... una noticia que destaca no sólo a nivel técnico, sino por sus potenciales implicaciones sociales.
Pero no sólo estamos ante una IA capaz de crear vídeos en los que las expresiones faciales y los movimientos de los labios están sincronizados de manera realista con el audio proporcionado (ya hay varias capaces de hacer eso), sino que VASA-1 también captura emociones y movimientos naturales de la cabeza.
Esto añade una capa adicional de realismo a los vídeos generados, ya que los personajes pueden expresar una gama más amplia de emociones y reacciones más naturales.
Sumemos a eso que los usuarios de VASA-1 tienen la capacidad de manipular varios aspectos del vídeo generado, como la dirección de la mirada del personaje, la distancia percibida y el estado emocional; todo ello permite personalizar los videos para adaptarlos a necesidades específicas o efectos deseados.
Y no menos importante: VASA-1 es eficiente para usos en tiempo real que requieran respuesta inmediata y alta calidad de imagen, siendo capaz de generar vídeos de alta resolución (512x512 píxeles) a velocidades de fotogramas muy altas (hasta 45 fps en modo offline y 40 fps online).
Buenos y malos usos
Algunos medios estadounidenses han expresado su preocupación por el momento elegido para lanzar esta IA, "justo antes de las elecciones", en referencia a las presidenciales estadounidenses (parecen olvidar que siempre hay elecciones en algún otro lugar del mundo).
Y es que, como ocurre desde que empezaron a lanzarse los primeros deepfakes, se teme que esta tecnología pueda ser mal utilizada (para generar contenido desinformador y extremadamente difícil de distinguir de vídeos reales).
Sin embargo, los investigadores que han creado VASA-1 también destacan las aplicaciones positivas del modelo:
- En educación, podría mejorar la experiencia de aprendizaje mediante tutores virtuales que interactúan de manera más natural con los estudiantes.
- En el ámbito de la salud, podría ofrecer compañía y apoyo emocional a personas con problemas de comunicación o aislamiento social.
- Esta tecnología tiene potencial para mejorar la accesibilidad, proporcionando avatares que pueden actuar como intérpretes para personas con discapacidad auditiva.
Imagen | Microsoft
Ver 2 comentarios