'Make-A-Scene', la IA generadora de imágenes que mejora la precisión de DALL-E 2 combinando descripciones y bocetos del usuario

'Make-A-Scene', la IA generadora de imágenes que mejora la precisión de DALL-E 2 combinando descripciones y bocetos del usuario
Sin comentarios

Llevamos varias semanas hablando de las sorprendentes capacidades de DALL-E Mini y DALL-E 2, dos modelos de IA generadores de imágenes que, si bien son muy diferentes en lo que respecta a la calidad de sus resultados, destacan por ser capaces de traducir en imágenes una descripción por escrito del usuario. Pero OpenAI no es la única compañía que busca liderar este campo…

…sin ir más lejos Meta —la compañía propietaria de Facebook— no quiere quedarse atrás y ha presentado en las últimas horas su propia IA generativa, bautizada como 'Make-A-Scene' y aún en fase de prototipo. Este modelo ofrece lo mismo que DALL-E 2 y va aún más lejos a la hora de permitirnos traducir nuestra imaginación en imágenes.

Unas gotitas de bocetos a la masa de descripciones, y rico, rico

Pues allí donde un texto como "un pato azul montando en moto" puede ser interpretado por DALL-E 2 de múltiples formas (dibujando ambas figuras con diversos tamaños, o situándolas a un lado u otro de la imagen), Make-A-Scene —partiendo también de una descripción textual— nos permite afinar los resultados acompañando el texto de un sencillo boceto dibujado que guíe a la IA durante el proceso generativo y que reste aleatoriedad, de este modo, al resultado final.

Este modelo, por tanto, recurre a un novedoso proceso intermedio, en el que interpreta lo bocetado por el usuario, identifica lo que éste ha destacado en su dibujo como aspectos clave de la imagen, y luego rellena los 'huecos' con lo indicado en el texto.

En las pruebas llevadas a cabo por Meta con usuarios, los participantes valoraron mejor los dibujos realizados con la ayuda de bocetos que los dependientes únicamente con información textual. Y esto lo hicieron prácticamente en todos los casos: un 99,54 % de las veces.

Los usuarios, con mayor control del resultado. Zuck, pensando otra vez en el Metaverso

El resultado de todo esto es que los usuarios obtienen un control mucho mayor sobre la imagen que le piden a la IA que genere, sin depender tanto de lo aleatorio. Los propios investigadores de IA de Meta destacan el potencial de Make-A-Scene para empoderar al usuario:

"Algún día, [Make-A-Scene] podría permitir formas completamente nuevas de expresión impulsada por IA y situar a los creativos en el centro del proceso: un director de arte al cargo de su próxima campaña creativa, un influencer de redes sociales que crea contenido personalizado, un autor que desarrolla ilustraciones para sus libros e historias, o meramente alguien que comparte un saludo divertido para el cumpleaños de un amigo".

Mark Zuckerberg, CEO de Meta, también se ha mostrado "entusiasmado" por los resultados de esta IA, y por su posible aplicación futura a su gran proyecto (y obseisón), el desarrollo del metaverso: "Herramientas como esta serán excelentes para los creadores, especialmente a la hora de construir mundos 3D inmersivos".

Temas
Inicio