ChatGPT Vision permite usar imágenes en tus prompts: nueve increíbles usos para sacarle todo el partido

Ahora ChatGPT también 've': pásale una imagen y será capaz de entenderla para ayudarte

Pexels Matheus Bertelli 16094061
1 comentario Facebook Twitter Flipboard E-mail

Si ChatGPT per se tiene potencial para hacerte la vida más fácil, desde que se actualizó recientemente para tener acceso a internet , dijo adiós a uno de sus principales hándicaps. Pero conectarse no ha sido la única gran novedad, ya que ahora también permite prompts con voz y con imágenes mediante ChatGPT Voz y ChatGPT Vision.  Las primeras personas que han probado ChatGPT Vision ya han demostrado que que el modelo de IA de OpenAI  admita imágenes tiene mucho potencial: estos son algunos de los usos más sorprendentes y creativos de ChatGPT Vision.

Nota: Aunque por el momento estas son funciones exclusivas para ChatGPT Plus y Entrerprise para empreaas, cabe esperar que tarde o temprano acaben llegando a todos los públicos. Con suerte, las novedades llegarán a Copilot, cuyo motor nos permite cosas maravillosas como la IA Disney.

Qué es ChatGPT Vision

Es una nueva versión de ChatGPT en el que el chatbot con modelo de lenguaje por Inteligencia Artificial GPT es capaz de reconocer el contenido de imágenes, permitiéndole interpretarlas para ayudarte con problemas o cuestiones relacionadas con ese contenido. Así, por el momento ChatGPT Vision puede reconocer lugares y cosas dentro de una imagen.

Un buen ejemplo de uso puede ser el de compartirle una foto de la pizarra de tu clase con unos garabatos sobre cierto tema y preguntarle a ChatGPT sobre ese contenido.

Qué está haciendo la gente con ChatGPT Vision

Las posibilidades de ChatGPT Vision son altísimas y de hecho en los pocos días que lleva disponible para el público (de nuevo, para personas que tengan suscripción Plus o de entorno empresarial) son de lo más variopintas.

Agilizar el proceso creativo en diseño

Imagina por un momento que trabajas en el área creativa de Oreo y estás pensando en cómo podría ser el packaging de una nueva versión con pistacho. La idea se te ocurre mientras estás en un bar tomando algo y la garabateas en una servilleta. Lo que antes supondría sentarte delante del ordenador y comenzar a trabajar, con ChatGPT Vision es tan sencillo como subir la imagen de la servilleta para que lo haga por ti. Este ejemplo se le ha ocurrido al periodista tecnológico Matias Zavia, que lo ha contado en su perfil de Twitter/ X.

Interpretar las radiografías

Quien más quien menos sabe la estructura ósea de nuestro cuerpo, pero verlo a través de una radiografía cuesta más. Y ya si hablamos de posibles dislocaciones o roturas, peor todavía. En este ejemplo GPT4V identifica una fractura en el quinto hueso del metatarso. Obviamente no sirve para sustituir al personal sanitario, pero sí para tener indicios y que el ojo experto pueda prestar más atención.


Entender la normativa de carteles

Cualquiera puede entender un cartel de los que nos encontramos por la vía pública, pero a veces simplemente se suceden una concatenación de letreros que pueden dificultar esta labor, especialmente coexisten con otros antiguos. Alguien se ha topado con un poste que dicta la regulación de un parking un tanto contradictorio y ha usado ChatGPT Vision para evitar multas de aparcamiento.

En este caso tiene un punto jocoso, pero esconde un uso real y útil: capturar normativas que nos encontramos en la calle y entenderlas gracias al resumen de la IA.

Leer, transcribir y resumir manuscritos antiguos

Otro uso de lo más práctico lo encontramos en esos textos que no han sido digitalizados, por ejemplo papiros o losas con mensajes antiguos. Este usuario de X cuenta cómo podrá usar ChatGPT Vision para transcribir manuscritos arábicos y que sus resultados incluso mejoran a la labor humana.

De un esquema en una servilleta a la web

Este uso de ChatGPT Vision exprime buena parte de las herramientas integradas: basta con un pequeño diagrama en un folio en blanco con el mítico 'Hello Word' para que lo lea, lo interprete y ojo, sea capaz de crear el código de web en HTML que cumpla con el esquema.

Mejora tu técnica en pintura

Ahórrate las clases de pintura y dedícate a pintar por tu cuenta. Cuando termines, sube la foto a ChatGPT Vision para que este te haga sugerencias sobre tu estilo y mejoras. O pídele lo que quieres conseguir y que te dé los trucos para lograrlo.

De profesión, perito

Ya hemos visto su habilidad para detectar posibles fracturas en un esqueleto humano, pero esa habilidad de ver y entender va a servir inspeccionar y analizar  en otras muchas industrias, como por ejemplo la de los seguros de automóviles o la de prevención de riesgo.

Resuelve los captcha por ti

Esta es una de las más intrincadas, tanto para humanos como para máquinas...porque de hecho es un detector de bots: la de pasar con éxito los captchas.

Encontrar a Wally

A veces la búsqueda no es el medio para conseguir algo, sino que es el objetivo. Vamos, buscar para entretenerse. De eso trata precisamente la serie de libros '¿Dónde está Wally?' de la infancia de servidora. Eso sí, si lo pasas por ChaGPT Vision, el juego se acaba rápido.

Portada | Foto de Matheus Bertelli

En Genbeta | Ideogram AI, una alternativa a MidJourney capaz de integrar el texto que quieras en imágenes generadas por inteligencia artificial

Inicio