Se ha filtrado una IA del OpenAI europeo, Mistral. Su rendimiento rivaliza con GPT-4 y puedes probarlo en tu PC

Es una filtración realizada de espaldas a la compañía, pero su CEO ya ha anunciado que han seguido mejorándolo ("¡Estad atentos!"), y no ha tomado medidas contra la difusión de esta versión

Androide
1 comentario Facebook Twitter Flipboard E-mail

El pasado domingo 28 de enero, un usuario conocido únicamente como "Miqu Dev" publicaba un conjunto de archivos en HuggingFace, la principal plataforma de modelos de IA de código abierto de la Red. Dichos archivos conformaban lo que parecía ser un nuevo modelo de lenguaje de gran tamaño (LLM), al que había bautizado como "miqu-1-70b".

El mismo día, un usuario anónimo compartía un enlace a los archivos de "miqu-1-70b" en el muy polémico foro 4chan. Los usuarios comenzaron a probarlo y a hacerse eco en redes de su excepcional rendimiento. Tan excepcional, de hecho, que se quedaba notablemente cerca del modelo que encabezaba el ranking EQ-Bench... el mísmismo GPT-4 de OpenAI.

Espera, ¿un supuesto modelo de IA open source, creado por un usuario anónimo, quedándose cerca de igualar a un modelo desarrollado por la empresa líder de la industria de la IA, con respaldo (además) de Microsoft? Parecía poco probable, ciertamente. Algo raro estaba pasando con "miqu-1-70b".

Un vistazo a…
ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Este tal Miqu me suena de algo...

Fue entonces cuando alguien destacó la importancia de que, en la información disponible en HuggingFace sobre el LLM en cuestión, se dejase claro que éste contaba con el mismo formato de "prompt" que el que usa Mistral, el 'OpenAI europeo open source'. Esta compañía con sede en París es conocida por desarrollar Mixtral 8x7b, considerado por muchos como el LLM de código abierto de mejor rendimiento disponible hasta ahora.

Prompt

Empezó a ponerse sobre la mesa la posibilidad de que 'Miqu' fuera una mera referencia a "MIstral QUantized" (la cuantización es una técnica de machine learning utilizada para permitir que ciertos modelos de IA se ejecuten en equipos menos potentes).

Los usuarios especularon con la posibilidad de que 'Miqu' fuera un nuevo modelo de Mistral que la empresa había 'filtrado' solapadamente. Al fin y al cabo, la compañía francesa es conocida por haber realizado antes lanzamientos de nuevos modelos sin mucha fanfarria: Mixtral 8x7b fue presentado únicamente con un enlace magnet en X, sin nota de prensa adjunta, por lo que la teoría no parecía algo improbable.

Aunque, incluso entonces, la publicación del enlace se había realizado desde la cuenta oficial de Mistral. Así que luego estaba la posibilidad, claro, de que algún empleado o cliente de la compañía hubiera decidido filtrarlo a espaldas de ésta.

Hace dos días, un usuario se mostraba "100% convencido" en X de que 'Miqu' es el mismo modelo al que se puede acceder como Mistral-Medium en Perplexity Labs (aún no disponible para descarga), y lo hacía comparando capturas de pantalla:

"Era plausible que conociera acertijos estándar, pero no hay manera de que un bromista lo haya configurado para expresar de manera idéntica las respuestas también en ruso".

Otros, sin embargo, señalaban que al ser sometido a los tests de EQ-Bench, 'Miqu' se mostraba capaz de superar también a Mistral-Medium:

Eq Bench
Mistral-Medium es una de las fuentes de ingresos de Mistral, gracias a que aún no había sido liberado: que 'Miqu' (con mejor rendimiento) esté disponible gratis en la Red, afectará negativamente a la compañía

Ayer, finalmente, se confirmó que la teoría de la filtración a espaldas de la compañía de un modelo aún en desarrollo era la correcta. Arthur Mensch, cofundador y CEO de Mistral, declaró lo siguiente en X:

"Un empleado muy entusiasta de uno de nuestros clientes de acceso temprano filtró una versión cuantizada (y con marca de agua) de un modelo antiguo que entrenamos y distribuimos de manera bastante abierta...
Para comenzar rápidamente a trabajar con unos pocos clientes seleccionados, volvimos a entrenar este modelo desde LLaMA 2 en el momento en que obtuvimos acceso a todo nuestro clúster, y la fase de preentrenamiento terminó el día del lanzamiento de Mistral 7B. Hemos avanzado desde entonces, ¡estad atentos!"

Mensch se ha tomado lo ocurrido con bastante filosofía, pues también ha visitado el repositorio en HuggingFace del modelo filtrado, y no para exigir su eliminación, sino para hacer una propuesta para que el supuesto autor (el filtrador, en realidad) valorase referenciar la verdadera autoría del modelo:

Dado que 'Miqu' es un modelo con 'marca de agua', saben perfectamente en cuál de sus clientes trabajaba el filtrador, por lo que aún podrían tomar medidas legales contra él

Aunque aún no está claro qué licencia se aplica al modelo (por lo que no se recomienda su uso más allá de lo estrictamente personal), una vez que ha quedado claro que Mistral no va a impedir el acceso al mismo (son una empresa de IA 'open source' al fin y al cabo, aunque muy comprensiblemente prefieran elegir ellos en qué momento y estado de desarrollo se lanzan sus productos)...

¿Siente GPT-4 la respiración de Mistral en su nuca?

...la atención del público se ha centrado en su anuncio sobre el nuevo modelo: "Hemos avanzado desde entonces, ¡estad atentos!", parece indicar que Mistral tiene entre manos un modelo más avanzado que lo que hemos visto hasta ahora, potencialmente capaz de igualar a GPT-4. Esto sería un hito no solo para la IA generativa de código abierto, sino para toda la industria de la inteligencia artificial.

Desde su lanzamiento en marzo de 2023, GPT-4 ha sido el LLM más potente y de mayor rendimiento del mundo, según la mayoría de los benchmarks, sin que ni siquiera los modelos Gemini de Google hayan logrado superarlo.

El lanzamiento de la versión definitiva de este 'Miqu-1-70B', cuando se produzca, probablemente termine ejerciendo una enorme presión competitiva enorme sobre OpenAI, al permitir toda clase de personalizaciones y afinamientos gracias a su naturaleza de código abierto.

De hecho, incluso si se pospone su liberación como 'open source', su disponibilidad comercial (al estilo del actual Mistral-Medium) acabaría con la actual supremacía incontestada de GPT-4. Sumemos a eso la presencia de otros modelos que también han empezado a acercarse al rendimiento del buque insignia de OpenAI (ya sean generalistas o no) y sólo podemos vaticinar tiempos interesantes en el sector.

Imagen | Marcos Merino mediante IA

En Genbeta | Las IAs open source que cualquiera puede ejecutar y alterar en su PC abren la puerta al auge de ciberestafas cada vez más exitosas

Inicio