El open source, un elemento clave en la explosión de inteligencia artificial que está ocurriendo ante nuestros ojos

El open source, un elemento clave en la explosión de inteligencia artificial que está ocurriendo ante nuestros ojos
2 comentarios

Shawn Swynx Wang es un experto en programación (es autor, por ejemplo, de 'The Coding Career Handbook'), que ayer abordó en su newsletter personal su teoría de 'Cómo el open source se está comiendo la inteligencia artificial'. Para ello, establecía un paralelismo entre el desarrollo de las IAs generativas tanto en el campo del texto como de la imagen: su análisis permite repasar algunos puntos clave de esta tecnología que no deja de generar titulares en los últimos meses.

Un vistazo a…
ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

¿Te acuerdas de GPT-2?

En febrero de 2019, OpenAI anunció el lanzamiento de GPT-2, un 'modelo de lenguaje' (una inteligencia artificial generadora de texto, para entendernos), que aseguraba que era capaz de producir textos tan convincentes que "podría ser utilizada para la desinformación o la propaganda", razón por la que sólo iban a poner a disposición del público una versión mutilada de la misma (de 117 millones de parámetros, frente a los 1.500 millones del modelo completo).

La reacción de Anima Anandkumar, directora de investigación de Nvidia, fue tajante:

"Lo que estáis haciendo es todo lo contrario a "abierto". Es lamentable que [pongáis en peligro] la reproducibilidad de resultados como el esfuerzo científico.

[...] El progreso en IA es, en su mayor parte, atribuible al open source y a la publicación abierta".

Poco después, OpenAI lanzó una versión algo-menos-mutilada, con 345 millones de parámetros. Pero, ese mismo verano, unos estudiantes lograron replicar la versión completa de GPT-2. Nacía así OpenGPT-2. Para finales de año, OpenAI ya había liberado la versión original de su 'peligroso' modelo.

Avanzamos unos meses: OpenAI lanza GPT-3 en mayo de 2020, con una API en beta cerrada, y poco después otorga a Microsoft "licencia exclusiva" para usarla. Mientras, se había ido creando una alternativa verdaderamente 'open' a 'OpenAI', EleutherAI, que publicó en enero de 2021 su conjunto de datos de entrenamiento de 800 GB, y en marzo ya habían lanzado su modelo GPT-Neo de 2.700 millones de parámetros.

Antes de que terminara el año, OpenAI ya había suprimido la lista de espera de GPT-3. La última gran noticia que tenemos en este campo fue el lanzamiento el pasado junio de BLOOM, una IA generadora de textos en 59 idiomas, con 176 millones de parámetros... y 100% open source.

¿Recuerdas que en enero no existía DALL-E 2? ¿Y que en julio no conocías Stable Diffusion?

Como puedes ver, han sido tres años y medio intensos en el campo de la generación de textos mediante IA; un período de tiempo en el que la potencia de los modelos se ha disparado y en el que, aunque un modelo cerrado fuera el primero en dar el 'campanazo', ha terminado con otro modelo 'open source' imponiéndose y democratizando el acceso a esa tecnología.

Pero, ¿qué ha ocurrido con respecto a las IAs generadoras de imágenes? Exactamente lo mismo, pero a un ritmo muchísimo mayor: todo ha pasado a lo largo de este mismo año.

La fiebre de la IA generativa la inició GPT-2 en el ámbito del texto y DALL-E 2 en el de las imágenes. Ambos están hoy dominados por alternativas libres: BLOOM y Stable Diffusion

Si Midjourney y DALL-E 2 anunciaban el lanzamiento de sus betas cerradas en marzo y en abril de este mismo año (con gran repercusión en el caso del segundo), el lanzamiento en agosto de Stable Diffusion, un modelo generador de imágenes que ofrece resultados revolucionarios y que ya es la IA más usada en este campo, ha sido decisiva en la reciente supresión de la lista de espera de la nueva beta abierta de DALL-E 2. De nuevo, auge de lo abierto y democratización del acceso a la nueva tecnología.

Pero, claro, lo más notable de lo 'open source' es que permite la personalización e integración de herramientas. Así, en las pocas semanas desde su lanzamiento, Stable Diffusion ya cuenta con varias interfaces de usuario (web y de escritorio), con plugins específicos para varias herramientas de diseño, y con varias plataformas online freemium que llevan a cabo sus propias implementaciones de este modelo de IA.

De hecho, el éxito descomunal de Stable Diffusion hubiera sido inalcanzable para una herramienta cerrada, pues se ha asentado sobre la multitud de documentación (guías, tutoriales, cursos en YouTube, hilos de Twitter) que han podido generar los usuarios en todos los idiomas gracias a la disponibilidad original de la documentación oficial, no muy amigable para principiantes. También ha sido posible incluso difundir trucos para permitir la ejecución de SD en sistemas Mac M1, originalmente incompatibles.

Y, ¿qué decir de Dreambooth? Un modelo capaz de permitir que lo entrenemos con imágenes propias para integrar cualquier objeto/persona/animal que deseemos en una imagen generada por inteligencia artificial. Tras ser lanzado el 26 de agosto, doce días más tarde ya existía un port para usarlo en Stable Diffusion. Tres programadores, sin vinculación con el equipo original de Dreambooth, se propusieron trabajar juntos a través de GitHub para optimizarlo, dado que sus requisitos de hardware eran tan enormes que resultaba imposible de ejecutar en equipos domésticos... en sólo 25 días lograron reducirlos en un 79%:

En palabras de Swynx, "todo esto es una reminiscencia de cómo el open source se comió al software 1.0" en diversos campos (control de versiones, IDEs, bases de datos, etc.). Aunque, avisa, aún quedan por resolver posibles obstáculos como las licencias de uso o los incentivos económicos (aún no está claro qué modelo de negocio a largo plazo tienen en mente los responsables de Stability.AI, los creadores de Stable Diffusion).

Imagen | Basada en original generada con Stable Diffusion

Temas
Inicio