Stable Diffusion, guía a fondo: qué es, cómo usarlo y ejemplos de cómo generar imágenes con una frase con inteligencia artificial

La inteligencia artificial está cogiendo mucha fuerza en los últimos meses, ya que se está demostrando que puede hacer prácticamente de todo para ayudarnos en nuestro día a día. Una de estas IA que está siendo protagonistas en numerosos sectores es Stable Diffusion, desarrollado por Stability AI.

Stable Diffusion se une a otras herramientas como son DALL-E, ChatGPT o Midjourney que han sido realmente populares a lo largo de todo 2022. Pero esta tiene como característica fundamental que es de código abierto y va a permitir trabajar con imágenes a otro nivel. En este artículo te contamos todo lo que debes saber al respecto de esta IA.

¿Qué es Stable Diffusion?

De una manera resumida, Stable Difussion es una inteligencia artificial que se ha diseñado con el objetivo de generar imágenes a partir de un texto natural. Esto quiere decir que cualquier usuario puede plantear una petición a través de un lenguaje natural para que la IA lo interprete y genere una imagen que plasme lo solicitado. Pero algo realmente importante es que no está limitada, ya que al ser de código abierto hace que los desarrolladores la puedan entrenar para sus proyectos e implementarla de la mejor manera posible para sus necesidades.

Aunque la función más destacada es la de generar imágenes desde cero a través de una petición, también va a poder editar imágenes que ya están creadas. Al cargar el archivo a la herramienta se va a poder solicitar agregar un objeto concreto o incluso retirarlo.

En sus entrañas esta IA fue entrenada en un inicio con pares de imágenes y subtítulos que se extrajeron de LAION-5B. En total fueron millones de imágenes subtituladas las que se pasó por esta IA para poder recibir un entrenamiento adecuado. Pero previamente hubo un filtro, ya que únicamente se entrenó a la IA con aquellas imágenes que se pensaba que los humanos otorgarían una puntuación de 5 o más a una valoración de cuánto le gustaba. Esto se suma también a una exclusión de imágenes de baja calidad. En total, el entrenamiento costó 600.000 dólares y requirió 4.000 GPU en AWS.

En Genbeta

Ya puedes generar imágenes con IA gratis con Stable Diffusion 1.5: la herramienta cuenta ahora con más precisión

Si bien, a nivel interno este entrenamiento no acaba aquí, puesto que Stable Diffusion va aprendiendo con el uso que se le va dando, para ir afinando los resultados con el tiempo. Hay que destacar que usa un modelo de difusión que permite crear imágenes desde cero, aprendiendo a eliminar el ruido gaussiano de imágenes borrosas.

En definitiva, esta IA va a tener en un primer punto la misión de interpretar y entender el texto que introduce un usuario a modo de petición. Una vez hecho esto va a generar la imagen a partir de todos los datos que se le vayan proporcionando y basándose en el aprendizaje que tiene.

Cómo usar Stable Diffusion

Una vez que se conocen las bases de esta IA, seguramente estás interesado en cómo vas a poder generar tus propias imágenes. Para ello hay diferentes formas de hacerlo, pero para un uso doméstico vas a poder acceder a la web stablediffusionweb.com y bajar en ella hasta encontrar dos cuadros de texto.

Aquí simplemente vas a tener que introducir la frase que tengas en la mente y que quieres materializar en una imagen. Hay que tener en cuenta que la magia de esta herramienta es saber exactamente que introducir para obtener la imagen que estás buscando, y no es algo completamente sencillo. Es un proceso de prueba y error, y que consume mucho tiempo, pues cada generación puede tardar fácilmente más de un minuto. Todo va a depender de la cola que haya de usuarios haciendo uso de esta herramienta.

Al terminar de generar tu petición, aparecerán cuatro imágenes que habrán tratado de materializar lo que has introducido en el cuadro de texto sin ningún tipo de comando. La podrás descargar y compartir si es necesario.

Pero para un uso más profesional y haciendo uso de comandos, recomendamos sin duda un editor de imágenes por IA como por ejemplo beta.dreamstudio.ai. Este requiere de un registro y cuenta con una herramienta muy completa a la hora de introducir el texto y los comandos precisos para obtener imágenes preciosas.

El problema en este caso es que cada generación va a costar un número determinado de monedas. Todas comienzan con 1.000 monedas de manera gratuita, pero cuando se acaban ya se debe optar por adquirirlas pasando por caja. Pero como decimos, esta es una opción que se reserva a quien quiere usar Stable Diffusion de manera profesional y no por ocio.

Además, si tiene un ordenador potente con una GPU que esté a la altura también vas a poder acceder al proyecto abierto en GitHub, que hace que se utilice la potencia de tu equipo para generar las imágenes que estás buscando. De esta manera será posible tener instalado Stable Diffusion de manera local en Windows 10 y 11, así como en un Mac.

Ideas para usar Stable Diffusion

Como hemos comentado anteriormente, usar estas herramientas no es sencillo. Esto se debe a que si tienes una imagen en la mente o una escena, la vas a tener que describir de una manera correcta para la inteligencia artificial. A continuación te mostramos alguno de los ejemplos que hemos podido generar en estas herramientas y lo que hemos solicitado.

Ejemplo 1

High quality photo of a person leaning on a bridge looking at the horizon of the sea.

Ejemplo 2

High quality image of a person skiing in the Sierra Nevada. 4K.

Qué coste tiene usar Stable Diffusion

Como hemos comentado anteriormente, para un uso lucrativo esta es una herramienta gratuita en algunas páginas web que están más centradas en el campo de 'jugar' con la IA. En este caso se tiene características limitadas y se debe esperar bastante por tener un resultado así como el no poder usar diferentes comandos.

Pero esto cambia por completo cuando se quiere usar de manera profesional para generar imágenes para un medio de comunicación o para otro fin. Aquí se pueden encontrar herramientas que si cobran un dinero para poder tener acceso a las ventajas de Stable Diffusion como la rapidez de generación o el uso de comandos. Y lo cierto es que tras usar las dos herramientas, se nota mucho cuando se usa un editor que está enfocado especialmente en la IA, como el comentado previamente.

Limitación con el idioma

Si nos referimos a las limitaciones que puede tener la IA, lo cierto es que poco a poco se han ido solventando. Comenzó con una limitación en lo que respecta al tamaño de las imágenes, al poder ser únicamente de 512 px de ancho. Pero ahora se permite sobrepasar los 1000 px de ancho sin ningún tipo de problema, aunque el coste de generación es mucho más elevado. Esto es algo que se implementó con Stable Diffusion V2 que además agregaba la profundidad a imagen e incluso la posibilidad de cambiar partes de una imagen con un repintado.

Pero la limitación que puede ser más evidente a día de hoy sin duda está en el idioma con el que se debe usar esta IA. En un inicio la mayoría de imágenes subtituladas con las que se entrenó a la IA fueron en inglés, y es por ello que a la hora de trabajar con ella es recomendable escribir las peticiones en inglés y no en otro idioma.

La diferencia dependiendo del idioma que se usa es bastante evidente tal y como hemos visto en nuestras pruebas. Esto puede cambiar si se entrena correctamente gracias a su código abierto, pero si se va a usar en una web americana por ejemplo es importante escribir las peticiones en inglés para obtener un resultado adecuado.

Los problemas éticos de Diffusion

Aunque a priori parece que son todo ventajas con esta herramienta, lo cierto es que también tiene algunos problemas relevantes. El principal problema es ético, ya que se ha planteado la posibilidad de usar Diffusion para crear deepfakes. Es decir, que a la IA se le pueda decir que cree una imagen de una persona famosa haciendo algo indebido. Si el resultado se afina y es bastante bueno, al publicarlo en redes sociales se va a poder creer que la imagen es completamente real y generar una gran polémica a su alrededor.

Vía: TechCrunch.

Otras IA tienen limitaciones con respecto a los desnudos o a ciertas escenas que puede ser usadas con este fin, pero Stable Diffusion no cuenta con un filtro claro. Es por ello que aunque siempre hablamos de las ventajas que tienen las IA para nuestro día a día, también debemos tener en cuenta que no son del todo perfectas y pueden contar con problemas relevantes para nuestro día a día y que afectan a la ética.