Como lo de MacGyver, el chicle y el clip: 14 líneas de código y un compresor ZIP rivalizan con las más complejas redes neuronales

La clasificación de textos es una de las tareas más básicas del campo de la inteligencia artificial conocido como 'procesamiento del lenguaje natural', uno de los beneficiados por la aparición y evolución de las redes neuronales. Sin embargo, si bien las 'redes neuronales profundas' son capaces de grandes logros a la hora de reconocer patrones…

…para realizar tareas simples como la clasificación temática, suelen resultar innecesariamente complejas, además de demandar enormes cantidades de datos de entrenamiento (más cuanto más aumenta el número de parámetros). Esto obliga a usar niveles de potencia computacional que en ocasiones resultan innecesariamente altos.

Y es que no siempre 'más' es necesariamente 'mejor'. De hecho, no siempre 'más' (potencia) es necesariamente 'más' (rapidez). "No estamos aquí para masturbarnos por el número de parámetros" fue la chocante frase proferida hace unas semanas por Sam Altman, CEO de OpenAI. Pero resulta interesante, también, lo que dijo justo antes de eso:

"La mayoría de vosotros no sabe cuántos gigahercios tiene su iPhone, pero sí que es rápido. Lo que realmente nos importa son las capacidades, y creo que es importante que nos mantengamos centrado en aumentar rápidamente la capacidad [de los modelos grandes de lenguaje]".

"Y si hubiera alguna razón para preferir la progresiva disminución de parámetros o para apostar por tener múltiples modelos trabajando simultáneamente, lo haríamos. [Los proyectos open source] están logrando cosas con 100 dólares 13.000 millones de parámetros que a nosotros nos costaron [lograr] con 10 millones de dólares y 540.000 millones de párametros".

En Genbeta

Google llega tarde a competir con ChatGPT... pero sin una legendaria innovación suya de 2017 su rival ni existiría

Pero, ¿y si no hiceran falta parámetros en absoluto? Es decir, ¿y si no hicieran falta las redes neuronales? Lo decimos porque un tuit de un programador llamado Stephen Diehl nos ha puesto sobre la pista de un proyecto que podría lograr exactamente eso:

"Un script de Python de sólo 14 líneas que utiliza gzip y supera un modelo transformer de 345 millones de parámetros es probablemente el resultado más hilarante que he visto en todo el año".

Catorce líneas, sí. Suficientemente breve como para meterlo completo en un tuit:

Un vistazo a…

ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Así funciona

Efectivamente, hasta ahora existían numerosas alternativas más ligeras que, sin embargo, rara vez lograban igualar la calidad de las redes neuronales.

Sin embargo, un reciente paper académico propone un método de clasificación de texto basado en el uso de un compresor sin pérdida simple (gzip, el compresor de ficheros ZIP estándar en Linux) para capturar regularidades que luego se traducen en puntuaciones de similitud mediante una métrica de distancia.

Este método —ligero, fácil de usar y que no requiere parámetros de entrenamiento— ha logrado resultados competitivos con respecto a las redes neuronales en seis de las pruebas realizadas con siete conjuntos de datos y supera a todos los métodos, incluido BERT, en todos los conjuntos de datos externos: