Google presenta Gemini, la nueva IA multimodal que rivalizará con GPT-4 y que integrará con la mayoría de sus productos

Hace unos días se cumplía el primer aniversario de ChatGPT, el producto con el que OpenAI ha revolucionado la tecnología este 2023, y que pilló en su momento con el pie cambiado a Google, que ha estado haciendo todo lo posible por ponerse al día y recuperar la iniciativa en este campo.

Lo intentó primero con el chatbot Google Bard que, pese a lo prometedor de sus capacidades, aún no ha logrado hacerle sombra al líder. Sin embargo, las esperanzas de la compañía de Mountain View estaban puestas en otro proyecto, un modelo de lenguaje (LLM) conocido únicamente como 'Gemini'.

Gemini ha estado siendo desarrollado por DeepMind, los creadores de la tecnología que se utilizó para crear AlphaGo (una de las primeras IA en vencer al campeón mundial del juego de mesa Go), en la que también se basa el propio Gemini.

Sin embargo, The Information publicaba recientemente que Google había experimentado problemas técnicos —supuestamente, un bajo rendimiento al responder instrucciones en idiomas que no fueran el inglés—, por lo que había decidido aplazar el lanzamiento de esta IA y apostar por un evento de presentación de una versión recortada de la misma "antes de que terminase este año".

En Genbeta

He convertido a Google Bard en mi ayudante: cinco prompts que uso para acabar tareas en segundos y ahorrar horas de trabajo

Habrá que probarlo con detenimiento en las próximas semanas para saber si la acusación de dicho medio era cierta… pero ahora ya sabemos qué significaba eso de "antes de que terminase este año": hoy mismo.

¿Qué ofrece Google Gemini?

Gemini es el resultado de la colaboración de equipos de todo Google. A diferencia de modelos previos, este se ha desarrollado desde el primer momento para ser multimodal, lo que significa que puede comprender y procesar diferentes tipos de información, como texto, código de programación, audio, imágenes y vídeo, así como "sobresalir en la resolución de problemas complejos y el razonamiento conceptual".

Los resultados de sus pruebas han sido, dicen desde Google, "impresionantes":

"Gemini Ultra supera a los modelos más avanzados en 30 de las 32 métricas académicas de uso general en investigación y desarrollo de modelos lingüísticos. Con una puntuación del 90,04% en la comprensión masiva del lenguaje multitarea (MMLU), Gemini Ultra incluso supera a los expertos humanos".

"Esta métrica combina 57 materias diferentes, desde matemáticas y física hasta historia y ética, lo que demuestra la capacidad de Gemini para comprender el conocimiento del mundo y resolver problemas complejos".

También es impresionante la flexibilidad de Gemini, ya que puede funcionar tanto en grandes centros de datos como en dispositivos móviles. Concretamente, el lanzamiento de Gemini incluye tres variantes:

Gemini Ultra, el modelo más potente para tareas complejas.
Gemini Pro, diseñado para una amplia gama de aplicaciones.
Gemini Nano, el modelo más eficiente, ideal para dispositivos móviles.

Google no se olvida de los programadores

Gemini no se limita a la comprensión de texto; también puede entender, explicar y generar código de alta calidad en varios lenguajes de programación populares. Este modelo se destaca en pruebas comparativas de codificación y aspira a posicionarse como una herramienta valiosa para los desarrolladores, un gremio en el que alternativas como ChatGPT y GitHub Copilot ya están bien posicionadas.

Además, Google ha desarrollado AlphaCode 2 —ya os hablamos hace tiempo de su primera versión—, un sistema de generación de código avanzado basado en una versión especializada de Gemini.

En Genbeta

Google te ofrece un itinerario de cursos gratis sobre IA generativa este mes de diciembre

Una IA anti-tóxica

En su anuncio de presentación, Google ha apostado por el desarrollo responsable de la IA, aclarando que Gemini ha sido sometido a rigurosas evaluaciones de seguridad, incluyendo medidas contra "sesgos y toxicidad".

Además, se han llevado a cabo investigaciones para identificar posibles riesgos en áreas como "la ciberdelincuencia y la persuasión", y se han implementado medidas de seguridad adicionales, como clasificadores de contenido para identificar aquellos potencialmente perjudiciales.

Omnipresente en productos de Google

Incluso si no sabes o te importa qué es Gemini, probablemente seas uno de los millones de usuarios que termine usando su tecnología, porque Google pretende integrarlo en multitud de sus productos y plataformas, como su buscador, YouTube, Gmail o Google Maps.

Además, a partir de hoy mismo, Gemini Pro se convertirá en el nuevo cerebro detrás de su chatbot Bard (que seguirá siendo el asistente de IA de Google por excelencia), mientras que Gemini Nano se incorporará en dispositivos como el Pixel 8 Pro, que

"hace posibles nuevas funciones como 'Resumir en la Grabadora' o utilizar la Respuesta inteligente de Gboard desde WhatsApp. El año próximo extenderemos esta función a otras aplicaciones de mensajería".

Por último, a partir del próximo día 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API Gemini en Google AI Studio o Vertex AI.

En Genbeta | Un ingeniero deja Google por "copión": dice que la empresa usó información de ChatGPT sin permiso de OpenAI para Bard

Google presenta Gemini, la nueva IA multimodal que rivalizará con GPT-4 y que integrará con la mayoría de sus productos

Desde hoy mismo, Google Bard ya actúa como interfaz de Gemini (como ChatGPT lo es de GPT-4)

¿Qué ofrece Google Gemini?

Google no se olvida de los programadores

Una IA anti-tóxica

Omnipresente en productos de Google

Explora en nuestros medios

¿Qué ofrece Google Gemini?

Google no se olvida de los programadores

Una IA anti-tóxica

Omnipresente en productos de Google

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios