Ya está aquí Stable Diffusion V2: la nueva versión de esta impresionante IA que dibuja añade una nueva modalidad de generación de imágenes

Ya está aquí Stable Diffusion V2: la nueva versión de esta impresionante IA que dibuja añade una nueva modalidad de generación de imágenes
2 comentarios Facebook Twitter Flipboard E-mail

La primera versión pública de Stable Diffusion (la 1.4) se lanzó a mediados de agosto de este año, representando todo un golpe al mercado de la IA generativa de imágenes: apenas nos estábamos acostumbrando a todo lo que podían hacer soluciones privativas como DALL-E 2 y MidJourney, y de pronto teníamos entre nuestras manos una potentísima alternativa open source.

Para finales de ese mismo mes, el modelo de Stable Diffusion ya se había actualizado a la versión 1.5. En conjunto, la 'V1' de esta IA fue, según nos recuerdan sus creadores, un ejemplo de software con "uno de los ascensos más rápidos a 10.000 estrellas de Github, disparándose a través de 33.000 estrellas en menos de dos meses".

Y ahora, menos de tres meses después del lanzamiento de la 1.5, la gente de Stability AI acaba de anunciar el lanzamiento de Stable Diffusion V2, el cual "ofrece una serie de grandes mejoras y características en comparación con la versión V1 original".

"¡Hemos trabajado duro para optimizar los modelos para que se ejecuten en una sola GPU, haciéndolos accesibles a tantas personas como sea posible desde el primer momento!"

Texto-a-imagen

Chicken

"Grandes mejoras" como la inclusión de OpenCLIP, un nuevo codificador de texto (responsable de interpretar las instrucciones de los usuarios) que "mejora en gran medida la calidad de las imágenes generadas" y de un nuevo dataset con su correspondiente y mejorado filtro anti-NSFW (es decir, destinado a evitar la generación de imágenes 'sensibles').

Además, los modelos de texto-a-imagen de esta versión de Stable Diffusion pueden generar imágenes con resoluciones predeterminadas de 512x512 píxeles y 768x768 píxeles.

Reescalado

Lowres Superres

La V2 también incluye un modelo de reescalado capaz de multiplicar por cuatro la resolución de las imágenes. Lo que significa que, en combinación con los modelos de texto-a-imagen, la nueva versión de Stable Diffusion ahora puede generar imágenes con resoluciones de 2048x2048 o superiores.

Profundidad-a-imagen

Stablediffusionv2 Depth2img

Depth2img es un modelo "guiado por profundidad", una novedad incorporada a la V2 que "infiere la profundidad de una imagen de entrada (usando un modelo existente) y luego genera nuevas imágenes usando tanto el texto como la información de profundidad".

"Ofrece todo tipo de nuevas aplicaciones creativas, brindando transformaciones que se ven radicalmente diferentes del original, pero que aún conservan la coherencia y la profundidad de esa imagen".

Repintando

"Finalmente, también incluimos un nuevo modelo de repintado guiado por texto, que hace que sea muy fácil cambiar partes de una imagen de manera inteligente y rápida".

Comentarios cerrados
Inicio