Durante una buena parte de 2022 y todo 2023, la inteligencia artificial ha cobrado un gran protagonismo en la industria tecnológica. Herramientas tan disruptivas como ChatGPT, Copilot, Bard y otros chatbots basados en modelos de lenguaje han copado un buen número de titulares. Tampoco olvidemos aquellas herramientas de generación de imágenes mediante IA como DALL-E, Stable Diffusion, Midjourney y otras tantas que nos han dejado con resultados realmente sorprendentes.
Entre todo ello, desde hace un tiempo también hemos comenzado a ver herramientas basadas en IA que son capaces de generar fragmentos de vídeo en unos pocos segundos. Esto hasta hace nada era impensable, pero ya hay firmas que están sumidas en este tipo de proyectos. Una de ellas es ByteDance, creadores de la conocida app TikTok.
Una IA que genera impresionantes vídeos a partir de texto
A través de su página web y un informe detallado del funcionamiento de su herramienta han presentado ‘MagicVideo-V2’, una herramienta de generación de vídeo a través de inteligencia artificial. La idea es que podamos describir en texto lo que queramos que aparezca en el vídeo y la herramienta podrá representarlo en un fragmento de unos pocos segundos.
En la web vemos multitud de ejemplos de alta calidad donde vemos cómo a través de una breve descripción es capaz de generar impresionantes clips de todo tipo. Junto a ello, también vemos comparaciones entre la tecnología de ByteDance y otras existentes en la red como ‘SVD-XT’, creado por los desarrolladores de Stable Diffusion, o Pika 1.0 Gen-2 de Pika Labs.
Aparte del detalle de los vídeos generados por esta IA, sorprende el hecho de la consistencia de los resultados, ya que no presentan demasiados errores visibles en las imágenes. Es cierto que si nos paramos detenidamente veremos algún que otro fallo puntual. No obstante, se trata de un buen punto de partida para sus creadores.
MagicVideo-V2 es un modelo que consta de cuatro módulos de funcionamiento: texto a imagen (T2I); imagen a video (I2V); vídeo a vídeo (V2V) y un modelo de interpolación de fotogramas. Tal y como aseguran sus creadores, el módulo T2I genera una imagen de 1.024 x 1.024 píxeles en función del prompt introducido. El módulo I2V anima la imagen, generando 32 fotogramas de 600 x 600 píxeles. En tercer lugar, el módulo V2V aumenta la resolución hasta los 1.048 x 1.048 píxeles y, finalmente, el módulo de interpolación agrega más suavidad en el movimiento de la imagen aumentando la tasa a 94 fotogramas.
Si bien no es una tecnología perfecta, sorprende el hecho de que en tan solo unos pocos meses hayamos visto este tipo de ejemplos, dándonos pistas de lo mucho que puede sorprendernos esta tecnología en un futuro.
De momento no podemos probar este modelo de generación de vídeo, así que tendremos que esperar para conocer en qué queda todo y cómo se acaba materializando esta IA. Aunque sea un proyecto que requiera de bastante potencia computacional, quién sabe si en un futuro podremos utilizarla para nuestros vídeos de TikTok.
En Genbeta | GPT llega a Bloc de notas en Windows 11: esto es todo lo que podrás hacer con la inteligencia artificial