Google presenta Lumiere, un modelo de IA que no sólo genera vídeo, sino que lo edita y permite animar imágenes

  • Poco a poco, la IA generadora de vídeo empieza a acercarse en resultados y funcionalidad a la generadora de imágenes

  • Por desgracia, Lumiere aún no está disponible para que los usuarios lo prueben

Lumiere Youtube
3 comentarios Facebook Twitter Flipboard E-mail

Recientemente, Google nos ha sorprendido con el lanzamiento de un nuevo modelo de inteligencia artificial, si bien esta vez no se trata de un modelo de lenguaje y/o chatbot (como Bard o Gemini), sino de una IA generativa de vídeo denominada 'Lumiere' (en honor a los hermanos creadores del cinematógrafo).

Tanto la propia Google como Meta habían publicado en los últimos meses otros modelos de generación de vídeo a partir de prompts de texto que, sin embargo, quedaban aún lejos de lo que venían logrando los modelos de imagen estática. Lumiere llega ahora con el objetivo de recortar distancias en ese campo.

Para ello, Google ha entrenado este modelo usando una descomunal base de datos de 30 millones de vídeos, lo que le permite no sólo mejorar la generación de vídeo a partir de texto, sino realizar otra serie de tareas relacionadas que abren todo un abanico de posibilidades creativas. Resumamos rápidamente todo que puede hacer:

  • Texto a vídeo: La base para cada modelo de vídeo.
  • Imagen a vídeo: La segunda base para los modelos de vídeo en la actualidad, convierte imágenes fijas en vídeos.
  • Generación 'estilizada': Utilizando una imagen de referencia, Lumiere puede generar vídeos basados en el estilo de una imagen que nosotros proporcionemos.
  • Cinemagraphs: Lumiere puede animar únicamente partes específicas de imágenes estáticas.
  • Edición de vídeo: Equivalente al 'inpainting' de la generación de imágenes, Lumiere puede editar cualquier parte específica de un vídeo aplicando un prompt únicamente a un área seleccionada del mismo.
Es perfecto para dotar de 5 segundos de movimiento a imágenes generadas con otros modelos de IA, como MidJourney o DALL-E


Por qué es relevante el lanzamiento de Lumiere

Lo que realmente diferencia a Lumiere de otros modelos es su arquitectura de "espacio-tiempo", que le permite generar clips completos en un solo paso, evitando así la inconsistencia temporal observada en modelos anteriores, en los que la imagen podía llegar a mutar de manera bastante grotesca durante los pocos segundos que duraba el vídeo.

Esta característica es esencial para lograr una fluidez y coherencia en los vídeos que se asemejan cada vez más a la realidad, aunque aún no cuenten con el nivel de fotorrealismo que observamos en algunas IAs de generación de imagen.

Otro avance notable es la forma que facilita el proceso de edición de vídeo a los usuarios con pocos conocimientos: Lumiere puede modificar partes específicas de un vídeo con una simple máscara y un prompt de texto

Además, la generación de 'vídeos estilizados' utilizando una imagen de referencia permite crear contenido aplicando un estilo consistente, lo que era un desafío considerable hasta ahora.

Todas estas funcionalidades (así como la de los cinemagraphs) cuentan con un potencial enorme en campos como la publicidad, el cine y la creación de contenidos digitales.

Repitiendo errores

Sin embargo, aunque ya se ha presentado, todavía estamos a la espera de que Google ofrezca acceso a este modelo al público general y pueda ser así puesto a prueba por cualquier usuario, un aspecto criticado por algunos usuarios...

...que reproduce el modo en que Google ha presentado modelos de IA anteriores y que, claro está, no permite valorar adecuadamente si de verdad Google se ha situado por delante de sus principales competidores en este campo, como Runway o Pika

Imagen | Google

En Genbeta | Los creadores de Stable Diffusion lanzan una herramienta para generar vídeos con IA a partir de texto: Stable Video Diffusion

Inicio