Estamos viviendo una semana que está protagonizada por la inteligencia artificial de las principales empresas tecnológicas del sector. Este lunes vimos como OpenAI lanzó su nuevo modelo GPT-4o y también una experiencia que puede llegar a sustituir a nuestros profesores, así como la nueva app para ordenador. Esto hizo que el hype por los avances en inteligencia artificial fueran realmente significativos.
Este martes se ha celebrado el Google I/O 2024 siendo uno de los eventos más importantes para la compañía con el objetivo de presentar sus novedades en Android y también en inteligencia artificial.
Una de las partes más importantes en este caso han sido los avances en Gemini 1.5, tanto en su versión Pro como la nueva versión Flash que está encaminada a aquellos textos que son mucho más extensos.
Gemini 1.5 Flash llega para poder analizar libros enteros
Una de las primeras mejoras en Gemini está en la presentación de Gemini 1.5 Flash. Por el apellido que tiene este modelo podemos llegar a pensar que está centrado sobre todo en la rapidez de los procesos, pero la realidad es que 1.5 Flash va a estar indicado para las tareas de gran volumen y alta frecuencia.
Es un modelo que es más liviano que el 1.5 Pro para poder trabajar con una gran cantidad de información. Se enfoca en realizar resúmenes, aplicaciones de chat o crear subtítulos de vídeos, además de también extraer la información de tablas o documentos extensos.
Al final hablamos de una mejora que podemos categorizar como menor, donde no vamos a poder tener a priori grandes avances, y que al final es una derivación de 1.5 Pro. Los ejemplos que presenta Google para poder comprender este nuevo modelo es el hecho de poder analizar un libro completo de ciento de páginas como "Los miserables". Este es específicamente el ejemplo que han contado en el paper de investigación.
Gemini 1.5 Pro seguirá instrucciones más complejas
La versión de Gemini 1.5 Pro ha mejorado mucho en los últimos meses, siendo presentado como el mejor modelo que podemos tener ahora en el ámbito de Gemini. Durante este evento de Google I/O han recordado como han ampliado la ventana de contexto a 2 millones de tokens, mejorado la generación de código o el razonamiento lógico.
Pero ahora Gemini 1.5 Pro va a poder seguir instrucciones más complejas y con matices como aquellas instrucciones que van a incluir el comportamiento. Además, han mejorado el control de las respuestas del modelo para poder crear personalidades concretas y el estilo de respuesta que se va a recibir por parte del chat. Esto es algo que ahora mismo se puede hacer por diferentes instrucciones específicas para personalizar la experiencia.
De manera extra, y siendo algo que hemos visto en ChatGPT, también se va a permitir la subida de archivos desde Google Drive o desde el propio dispositivo. Este es un avance importante, ya que hasta ahora para trabajar con archivos se tenía que compartir el enlace desde Drive por ejemplo. Y esto es algo que también vimos en la nueva app de ChatGPT para Mac.
En Gemini API y Google AI Studio han agregado la comprensión de audio, y de esta manera vamos a poder analizar imágenes y audio en el campo de Google AI Studio. Y esto es algo que podrá ser usado por cualquier desarrollador en todo el mundo, al abrirse desde hoy mismo.
De manera añadida Google también ha compartido actualizaciones de Gemma con Gemma 2 que es la próxima generación de modelos abiertos. Con este modelo se presenta una arquitectura que tiene el objetivo de lograr un rendimiento y una eficiencia innovadoras. Aunque no han podido ofrecer muchos detalles para ellos.
En definitiva, estamos ante nuevos avances de Gemini pero que no es una revolución como la que hemos podido ver con ChatGPT que si han conseguido llamar mucho la atención con sus nuevas inclusiones en los sistemas operativos. El verdadero cambio se espera como es lógico para Gemini 2.0, para la cual todavía vamos a tener que seguir esperando.