Google lanzó su nueva IA prometiendo destrozar a ChatGPT en algo increíble. Los expertos han comprobado que no mentían

En el vertiginoso mundo de la inteligencia artificial, la innovación constante está resultando ser la clave para desbloquear nuevas capacidades y mejorar las ya existentes (eso, y escalar la capacidad de cómputo de las máquinas, claro).

Recientemente, la presentación del modelo Gemini 1.5 por parte de Google DeepMind ha marcado un hito significativo en el desarrollo de modelos de lenguaje (o LLM), particularmente en lo que respecta a la ventana de contexto y la eficiencia en el procesamiento de información multimodal.

Espera, ¿qué es eso de la ventana de contexto?

Para entender el impacto de Gemini 1.5 Pro, es fundamental comprender qué es una ventana de contexto: se refiere a la cantidad total de tokens (por ejemplo, palabras o caracteres) que el modelo puede analizar al mismo tiempo para generar una respuesta. Esta limitación afecta directamente la capacidad del modelo para comprender y generar texto basado en la información proporcionada.

¿Nunca te ha pasado que te hayas puesto a charlar con un chatbot durante un buen rato y que, al hacer referencia a algo que le dijiste al comienzo de la conversación, ya no sea capaz de recordarlo? Pues es, sencillamente, porque la información aportada ha sobrepasado su ventana de contexto.

En Xataka

Google lleva dos décadas siendo el rey de las búsquedas. Ahora mira con inquietud a un futuro post-búsquedas

Tradicionalmente, modelos como GPT-3 tienen ventanas de contexto que van desde los 8.000 hasta los 10.000 tokens. Eso no sólo ha limitado su capacidad para manejar conversaciones extensas, sino también para procesar documentos largos. Al menos, para hacerlo sin perderse toda clase de información relevante.

La innovación de Gemini 1.5 Pro

El nuevo Gemini 1.5, sin embargo, ha roto estas barreras presentando una ventana de contexto ampliada capaz de manejar hasta 10 millones de tokens. Por ejemplo, cuando se le proporcionaron las transcripciones de 402 páginas de la misión Apollo 11 a la Luna, Gemini 1.5 Pro fue capaz de razonar sobre eventos y detalles mencionados a lo largo del documento, una tarea imposible para modelos anteriores debido a las restricciones de la ventana de contexto.

Imagínate poder leerte un manual y recordar después en qué páginas aparecían las referencias a tal o cual término. Y ser capaz de sintetizar después la información de los párrafos en que aparecían.

Esto significa, unido a su capacidad multimodal, que ahora es capaz de 'razonar' sobre documentos... pero también sobre imágenes, vídeos o archivos de audio extremadamente extensos sin perder coherencia o precisión en sus respuestas.

Ejemplos

Matt Shumer, CEO de HyperWrite, comenta cómo Gemini 1.5 fue capaz de encontrar al hablante de una sola frase de todo el libro de "Harry Potter y la Orden del Fénix":

"Más de 360.000 tokens, ¡y lo hizo bien! GPT-4 sólo puede manejar 128.000 y lo hace mal".

Mejor aún, Gemini 1.5 fue capaz de repetir la hazaña cuando Shumer lo intentó de nuevo subiendo, esta vez, tres libros de Harry Potter, en lugar de sólo uno.

Pero hemos dejado lo mejor para el final. Mckay Wrigley cuenta en X cómo subió a Gemini 1.5 Pro el último vídeo de Mr.Beast. 22 minutos y 347.849 tokens. Y le pidió respondiera con "[NOMBRE DEL CHICO CHÁNDAL AZUL] tiene [TOTAL DE PREMIOS EN EFECTIVO] de [ALIMENTO QUE SE ANUNCIA]":

"Observe cómo el modelo contesta 100% correctamente. Un salto loco para la IA".

Wrigley explica que, a efectos prácticos, eso significa que la IA ahora tiene una 'memoria' significativamente mayor que nosotros, "y parece sobresalir en la utilización de la integridad de esa memoria".

"Esto desbloquea una gran cantidad de casos de uso en la capa de aplicaciones y amplía enormemente lo que podemos hacer con los LLM. Desearía que fuera más obvio por qué este ejemplo en particular es una locura".

"Creo que es difícil entender lo loco que es si no has pasado mucho tiempo intentando hacer que cosas similares funcionen con modelos anteriores".

Imagen | Marcos Merino mediante IA

En Genbeta | "Ni en sueños podrías dibujar así": un 'artista IA' ataca a un ilustrador de One Piece poniendo de ejemplo... a su propio personaje

Google lanzó su nueva IA prometiendo destrozar a ChatGPT en algo increíble. Los expertos han comprobado que no mentían

Gemini 1.5 es capaz de 'leer' incluso vídeos largos y responder con precisión sobre ellos. La clave: la ventana de contexto

Espera, ¿qué es eso de la ventana de contexto?

La innovación de Gemini 1.5 Pro

Ejemplos

Explora en nuestros medios

Espera, ¿qué es eso de la ventana de contexto?

La innovación de Gemini 1.5 Pro

Ejemplos

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios