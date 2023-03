Esta semana será recordada como una de las más movidas en el sector de la inteligencia artificial, con Midjourney v5 ya disponible o la llegada de ChatGPT a la suite de Microsoft Office mediante Copilot. Pero ambas noticias han quedado en un segundo plano con el lanzamiento de GPT-4. Si con ChatGPT-3.5 la sensación era la misma que cuando usamos internet por primera vez (la frase y el artículo es de Javier Lacort, pero la hago propia porque siento lo mismo), GPT-4 va un paso más allá. Aunque no integra todas las especificaciones rumoreadas, la realidad es que mejora considerablemente la experiencia respecto a ChatGPT-3.5 pero, ¿en qué se diferencian ChatGPT- 3.5 y GPT-4?

Mientras que GPT-3.5 solo acepta peticiones en texto, GPT-4 es multimodal, es decir, admite entradas en texto y visuales. O lo que es lo mismo: no tiene por qué ser una imagen con texto escrito (aunque valdría), si no que vale cualquier cosa, desde una fotografía de un paisaje a un problema matemático manuscrito pasando por un meme.

GPT-4 es capaz de comprender y describir prácticamente cualquier imagen. Es decir, que GPT-4 ya no es "solo" un modelo de lenguaje por Inteligencia Artificial, si no también un modelo visual. Entre sus posibilidades está la de identificar objetos concretos dentro de una foto con muchos elementos visuales.

Durante la presentación de GPT-4, alguien del equipo de OpenAI suministró una captura de pantalla de un servidor de Discord y la nueva versión describió cada detalle, hasta los nombres de los usuarios en línea. Hasta unos sencillos garabatos con el esquema de una web basta para convertirlo en un código para llevarlo a cabo.

