Cuando OpenAI anunció el lanzamiento de GPT-4, afirmó que su chatbot de última generación incluiría también capacidades visuales; esto es, que podríamos subir fotos a la plataforma de igual manera que pegamos textos, y que GPT-4 reconocería su contenido y nos aportaría información sobre dichas imágenes.

Lo cierto es que las nuevas funcionalidades de GPT-4 se han ido activando poco a poco: aún no todos los usuarios tienen acceso a su función de plugins, y a nadie se le han activado por ahora las capacidades visuales, aunque hayamos podido verlas en acción en la presentación de OpenAI.

¿Qué han conseguido con esa tardanza en su lanzamiento? Que un proyecto 'open source' se les adelante. ¿Su nombre? MiniGPT-4. Empiezan mal, porque es un nombre tramposo (MiniGPT-4 no hace uso de la tecnología de OpenAI), sin embargo, a nivel técnico, luce por méritos propios. 'MiniGPT-4' consiste en crear un combo lenguaje-visión, conectando:

un chatbot cuyos creadores afirman que se equipara en rendimiento a GPT-3.5 ( Vicuna , una versión mejorada de Alpaca, que a su vez es una versión opensource de LLaMA de Meta)…

, una versión mejorada de Alpaca, que a su vez es una versión opensource de LLaMA de Meta)… con otra IA de reconocimiento de imágenes, capaz de describir con palabras cualquier imagen que le presentemos (concretamente BLIP-2, también opensource, y que ya fue usado por Microsoft para integrarlo en su 'VisualGPT').

Su versión web es insoportablemente lenta, pero permite su ejecución en local en el PC





Así funciona

Así, esta IA doble permite que subamos a su plataforma una imagen, la analiza… y después queda a la espera de que le hagamos preguntas sobre ella. Podemos pedirle una somera descripción general de la misma, o podemos 'entrar en harina' y preguntar cosas como '¿Dónde puedo comprar algo como lo que sale en la foto?' o '¿Qué enfermedad tiene esta planta?'.

Lo hemos probado con una de nuestras imágenes de portada de hoy

Si le preguntamos esto, no sólo señalará a una infección fúngica (ahora tan de moda, gracias a 'The Last Of Us'), sino que relatará los pasos a seguir para tratarla.

Y si le mostramos una imagen generada por IA que muestre un cactus creciendo entre el hielo en mitad de un lago, será capaz de indicarnos qué tiene de extraño esa foto.

¿Que tenemos un negocio, acabamos de crear un nuevo producto y sólo tenemos una foto y ninguna idea de cómo escribir un anuncio para venderlo? Tranquilos: MiniGPT-4 nos ayuda a hacerlo.

¿Que sólo tenemos una foto de un plato de comida y queremos saber cómo elaborarlo? Pues también nos ayuda. ¿Y el famoso truco de GPT-4 con la servilleta y el código HTML? También lo tiene cubierto.

Su demo web, enlazada más arriba, es terriblemente lenta… pero su repositorio oficial nos proporciona todo lo necesario (código e instrucciones) para ejecutarlo localmente en nuestro PC si tenemos experiencia con entornos Python y un equipo lo bastante potente.

