Algunos de los mejores trucos para DALL-E 3: mezclar imágenes, generar secuencias para crear tus propios cómics…

Desde hace unos días DALL-E 3 está disponible ya para todos los usuarios de las versiones de pago de ChatGPT —y, desde varias semanas antes, estaba disponible en Bing—, lo cual ha abierto un abanico de posibilidades en materia de creatividad gráfica. En este artículo, exploraremos una serie de trucos que nos harán la vida más fácil a la hora de enfrentarnos a algunos retos en DALL-E 3:

Identificar las imágenes

Cuando, en un mismo chat, hemos creado varias tandas diferentes de imágenes, y queremos referirnos concretamente a una de las imágenes anteriores para pedirle a ChatGPT que se base en la misma para realizar alguna pequeña modificación, la tarea de indicar a cuál nos referimos puede volverse confusa, para la IA y para nosotros. Por eso, lo mejor es pedirle que asigne un código identificador a cada imagen. Así:

"En DALL-E 3, asigna siempre un identificador único a cada imagen y muéstrame cuál es, tras generarla. Utiliza un formato como la letra 'x' seguida del número correspondiente."

A partir de ese momento, después de generar cada tanda de imágenes, las identificará como 'x1', 'x2', 'x3'…

Mezclar imágenes

¿Ya has introducido el prompt anterior? Muy bien, pues ahora genera dos tandas de imágenes. De este modo, tendrás imágenes identificadas desde 'x1' a 'x8'. Y ahora sólo tienes que indicar instrucciones como

'Mezcla x2 con x6'

'Integra x2 en x6'

Et voilà:

Crear una secuencia de imágenes (por ejemplo, para un cómic)

Crear un cómic usando una IA ha resultado tradicionalmente muy complicado por la enorme dificultad de mantener la coherencia de personajes/entorno de una imagen a otra. DALL-E 3 cuenta aquí con una ventaja notable frente a sus competidores, pues al contrario de —por ejemplo— Midjourney, nos permite indicar elementos distintivos para cada imagen generada. Y hacerlo usando lenguaje natural, no sólo con el típico prompt basado en atributos.

En Genbeta

Cómo crear imágenes y pósters con un estilo a lo Disney Pixar gratis con la IA de DALL-E 3 y Bing Chat

"¿Y de qué nos sirve indicar elementos distintivos, si lo que queremos es mantener la coherencia de una a otra?", os preguntaréis. Bueno, porque también nos permite indicar que ciertos elementos sean exactamente los mismos en una imagen y en otra.

NOTA: En realidad, nunca serán 'exactamente' los mismos, la forma en que trabaja la IA generativa lo impide… pero si no tenemos muy mala suerte, serán lo suficientemente similares, y a partir de ahí podremos pedirle a ChatGPT que pruebe a volver a generar docenas de veces la misma imagen hasta que el contenido sea más similar, o utilizar un editor de imágenes para terminar de retocarlas.

Veamos el siguiente caso, en que he buscado crear una secuencia de imágenes que describa una escena, usando el siguiente prompt, que insiste a la IA sobre la necesidad de mantener un mismo elemento de una imagen a otra:

"Genera 4 imágenes, según estas instrucciones:

*Guerrero vikingo sobre la cubierta de un barco, mirando al cielo mientras se pone las manos sobre los ojos para que el sol no le deslumbre

*El mismo guerrero vikingo, sobre la cubierta del mismo barco, mirando al cielo con gesto de sorpresa

*El mismo guerrero vikingo, sobre la cubierta del mismo barco, cerrando los ojos mientras algo parecido a un excremento de gaviota impacta contra él

*El mismo guerrero vikingo, sobre la cubierta del mismo barco, limpiándose la cara con un trapo"

Y el resultado ha sido este:

Si no fuera por los leves cambios de vestimenta, podría decirse que el éxito es total. Si quisiera dedicarle más tiempo, podría ir haciendo ajustes en el prompt (o, directamente, apostar por un estilo de dibujo menos realista, que reduzca los elementos a dibujar y, con ello, la variabilidad de los mismos).

Inspirarte en personajes ya conocidos

Las políticas de contenido de DALL-E 3 son extraordinariamente restrictivas. No es raro que, al querer generar una tanda de imágenes a partir de un prompt de lo más inocente, ChatGPT nos diga que sus políticas le impiden mostrarnos una o varias de las imágenes que se estaban generando.

Es decir, a mí me ha impedido crear 'Un funko de Carlos I de España'… y no porque violase el copyright de los 'funkos', sino porque 'Carlos I es un político'… aunque lleve medio milenio muerto.

En cualquier caso, es cierto que uno de los motivos por los que DALL-E 3 pondrá más problemas es por el intento de generar contenidos potencialmente sujetos a copyright. Esto a veces es sorteado automáticamente por ChatGPT ("No puedo generar imágenes de Harry Potter, pero probaremos con un joven mago con gafas que…") y en otras ocasiones podemos resolverlo nosotros mismos recurriendo a fórmulas como

"Genera imágenes de Lara Croft que no violen el copyright…"

"Genera imágenes de una aventurera similar a Lara Croft…"

También probé a pedirle a DALL-E 3 imágenes de un "superhéroe arácnido", sin mencionar a Spider-Man, y captó perfectamente la indirecta:

Variar el nivel de 'rareza'

MidJourney cuenta con un parámetro '--weird' (literalmente, 'raro') que "introduce cualidades extravagantes y poco convencionales en las imágenes generadas, lo que da como resultado resultados únicos e inesperados". DALL-E 3 no tiene, per se, un parámetro equivalente… pero podemos convencer a ChatGPT de que lo simule con las instrucciones adecuadas.

Instrucciones que pueden ser tan sencillas como esta:

"Crea 4 imágenes de [TEMA], con crecientes niveles de 'extrañeza' en cada caso"

O, para poder aplicar a todas las imágenes el mismo 'nivel de extrañeza', puedes cuantificarlo con un prompt como este:

"Siendo '0' el nivel mínimo de 'extrañeza' de una foto y '1000' el máximo, crea cuatro imágenes de [TEMA] con un nivel de extrañeza de '750'"

No todas las imágenes tienen que ser cuadradas

Casi todas las imágenes generadas pro DALL-E 3 son cuadradas, estando dotadas de las dimensiones 1024x1024 píxeles. Esa es la opción por defecto, pero en ocasiones la IA altera ese tamaño.

Y es que también podemos indicarle a ChatGPT que queremos imágenes de 1792x1024 ('wide image' o imagen ancha) o de 1024x1792 ('full-body portrait' o imagen alta).

Imágenes | Marcos Merino mediante IA

En Genbeta | Las mejores alternativas a Midjourney gratis y de pago para generar imágenes con inteligencia artificial

Algunos de los mejores trucos para DALL-E 3: mezclar imágenes, generar secuencias para crear tus propios cómics…

Exprime las posibilidades creativas de la nueva IA gráfica de OpenAI

Identificar las imágenes

Mezclar imágenes

Crear una secuencia de imágenes (por ejemplo, para un cómic)

Inspirarte en personajes ya conocidos

Variar el nivel de 'rareza'

No todas las imágenes tienen que ser cuadradas

Explora en nuestros medios

Identificar las imágenes

Mezclar imágenes

Crear una secuencia de imágenes (por ejemplo, para un cómic)

Inspirarte en personajes ya conocidos

Variar el nivel de 'rareza'

No todas las imágenes tienen que ser cuadradas

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios