"No es GPT-5 ni un motor de búsqueda, ¡pero hemos trabajado duro en algunas cosas nuevas que creemos que le encantará a la gente!", aclaraba hace unos días Sam Altman sobre la presentación de novedades de esta tarde. Ahora, por fin, sabemos qué guardaba en el cajón la compañía líder en el desarrollo de tecnologías de IA.
Además de una app de escritorio oficial para ChatGPT, su gran novedad es un nuevo modelo de IA generativa llamado GPT-4o (la "o", que es una letra, significa 'omnicanalidad'), que promete revolucionar la forma en que interactuamos con la tecnología al ser capaz de procesar y generar respuestas en tiempo real utilizando combinaciones de texto, audio e imagen.
¿Recuerdas que hace unos días revelábamos la existencia de un misterioso modelo llamado 'GPT2' que, obviamente, no se correspondía con el GPT-2 original, pues mostraba puntuaciones mucho mejores que el propio GPT-4? Pues bien, en realidad era una versión de prueba de este nuevo GPT-4o:
Una nueva experiencia de usuario
Y es que GPT-4o destaca no sólo por su capacidad de integrar múltiples formatos de entrada y salida, sino también por su impresionante velocidad de respuesta, similar a la de un ser humano, con un promedio de 320 milisegundos.
Esto representa una mejora significativa respecto a modelos anteriores, como el GPT-4, que mostraba latencias de hasta 5,4 segundos en el modo de voz.
Ahora, los usuarios podrán hacer una pregunta de voz a ChatGPT e interrumpirle mientras responde. El modelo ofrece también la capacidad de captar matices en la voz de un usuario, y de respondernos sintetizando voz en "una amplia variedad de estilos emotivos diferentes" (incluyendo el canto).
GPT-4o también actualizará las capacidades de análisis de imagen de ChatGPT: si le proporcionamos una foto, ChatGPT ahora puede responder rápidamente preguntas relacionadas con la misma.
Además de su creciente eficacia en el procesamiento de texto en inglés y código fuente, el GPT-4o muestra una mejora notable en el manejo de textos en otros idiomas, siendo además un 50% más económico y considerablemente más rápido que las versiones anteriores.
GPT-4o ya está disponible en ChatGPT (aunque se irá poniendo a disposición de los usuarios de forma escalonada) y en la API de OpenAI para desarrolladores, con planes de expandir sus capacidades de audio y vídeo en las próximas semanas.
Pero GPT-4o no sólo promete ser el más avanzado hasta la fecha, sino también el primero en ser accesible de manera gratuita para todos los usuarios de ChatGPT: hasta ahora, los modelos de la clase GPT-4 solo estaban al alcance de aquellos dispuestos a pagar una suscripción mensual. En palabras de Altman:
"Esta es una parte importante de nuestra misión; queremos poner herramientas geniales de IA en manos de todos".
Imagen | Marcos Merino mediante IA