Lo nuevo de Microsoft es un ChatGPT capaz de "leer" imágenes y generar otras a demanda: así es VisualGPT y puedes probarlo ya

Lo nuevo de Microsoft es un ChatGPT capaz de leer imágenes y generar otras a demanda: así es VisualGPT que ya puedes probar

Con el anuncio hace unas horas del inminente lanzamiento de la nueva versión del modelo de lenguaje por inteligencia artificial GPT-3 llega otra noticia que parte de ChatGPT y su posibilidad de crecimiento aplicándole otras IA de la mano del equipo de investigación de Microsoft. Se trata de Visual ChatGPT y es capaz de generar imágenes a partir de solicitudes de texto.

En el paper del equipo de Microsoft Research Asia se recogen los avances y la arquitectura de este software que, como puede verse bajo estas líneas, no se limita a recoger nuestra petición escrita mediante un prompt, si no que es capaz de reconocer objetos individuales de imágenes como complemento a la orden. En el caso del ejemplo, pide una flor roja condicionada a la supuesta profundidad de la imagen aportada (una flor amarilla) para después pedirle que la convierta en un dibujo.

La dinámica de introducción de órdenes será como la de ChatGPT, es decir, con lenguaje natural y mediante un diálogo entre el usuario y la inteligencia artificial.

Además Visual ChatGPT integrará modelos de Visual Foundation como Blip, Stable Difussion y Pix2Pix que la herramienta podrá usar a conveniencia, ya que contará con un administrador de avisos que nos indicará cuál de esos generadores de imágenes es más adecuado usar en función de los requisitos.

arquitectura de VisualChatGPT

Teniendo en cuenta que podemos introducir imágenes en el proceso y la herramienta es capaz de leerlas e interpretarlas, cabe esperar que Visual ChatGPT pueda generar parámetros de estas en forma de respuestas de texto. Es decir, que si le preguntamos ¿de qué color es la flor de esta imagen?, pueda generar la respuesta adecuada.

Otro punto interesante es que además de generación de imágenes, este software permitirá la edición sobre la marcha o la descripción parcial, un cambio importante respecto a otros generadores de imágenes como Dall-E y Stable Diffusion, que generan imágenes nuevas a partir de texto y solo usan los outputs anteriores como referencia.

El potencial tanto de creación de la herramienta como de su capacidad para leer e interpretar imágenes resulta de lo más prometedor, si bien Microsoft no ha detallado cuál es su propósito y si planea implementarlo próximamente en algunos de sus productos, pero sería un candidato ideal para la búsqueda de imágenes de Bing.

En Genbeta

Haz tu vida más fácil con estas 11 formas de usar ChatGPT en el día a día

Cómo probar Visual ChatGPT

El equipo de investigación detrás de Visual ChatGPT ya ha puesto a disposición de quien quiera probarlo una versión preliminar en Github que puedes descargar en tu ordenador para una experiencia de primera mano.

Eso sí, una cosa es que puedas descargarlo y otra que puedas usarlo: esta herramienta es exigente a nivel de hardware, requiriendo hasta 7 GB de VRAM para vídeo, por lo que se recomienda que tu equipo disponga de una GPU dedicada.

Portada | Paper Microsoft

En Genbeta | GPT-4, guía a fondo: qué es, cómo funcionará, cuándo se lanzará y qué novedades integrará con respecto a ChatGPT 3.5