Todas las IA mostraban menos coeficiente intelectual que un humano medio en esta prueba. Esta ha roto la barrera

La última creación de Anthropic no lleva ni una semana en el mercado y ya está batiendo récords

Superlisto
3 comentarios Facebook Twitter Flipboard E-mail

Hace una semana, nos hacíamos eco del lanzamiento de la IA 'Claude-3' por parte de Anthropic (fundada por exingenieros de OpenAI) y de cómo prometía lograr lo que parecía imposible: ser superior a GPT-4 en muchas pruebas. Luego supimos que una inesperada reacción de este modelo de IA había sorprendido tanto a sus desarrolladores (y a los usuarios de las redes) que había gente poniendo sobre la mesa la posibilidad de que estuviéramos presenciando los primeros signos de autoconsciencia.

Eso, claro, hubiera puesto a Claude-3 en igualdad con los seres humanos, en teoría los únicos entes hasta el momento dotados de esa cualidad (aunque cada vez se habla más de 'invitar a ese club' a grandes simios, cuervos o delfines). Por otro lado, muchos expertos afirman que "simular autoconsciencia" es lo que debe hacer un chatbot que reproduzca bien nuestro lenguaje escrito, pero eso sólo significa que esa IA es buena imitando.

Un vistazo a…
ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

De qué hablamos cuando hablamos de CI

Ahora, hay quien habla de que Claude-3 podría haber no ya igualado, sino superado, al humano medio... en un criterio tan relevante como la inteligencia, al superar por primera vez la barrera del 100 en el índice de coeficiente intelectual. Pero, antes de profundizar en eso, aclaremos a qué nos referimos por 'inteligencia' y 'CI'.

El coeficiente intelectual es la medida que generalmente utilizamos para evaluar las capacidades cognitivas (no sólo la 'inteligencia', también la memoria, el razonamiento lógico, la comprensión verbal...) de una persona en relación con la población general. Hoy en día, se mide recurriendo a pruebas diseñadas para ser, en la medida de lo posible, independientes del contexto educativo, cultural y socioeconómico del individuo.

Por diseño, el test de CI siempre muestra '100' como promedio (lo haría incluso si todos nos volviéramos superinteligentes) y lo normal es que la mayoría de las personas obtengan puntuaciones de 15 puntos por encima o por debajo de ese promedio (85-115).

Nos ganan en nuestro terreno, gente

Simpson (Imagen: Fox Corp.)

Maxim Lott, experto en matemáticas y economía que se dedica a escribir sobre IA en su newsletter cuando no está ejerciendo de productor televisivo, decidió hacer y publicar un experimento que mostraba cómo los modelos de IA fallaban miserablemente al plantearles preguntas de medición del IQ basadas en lo visual, pero una semana después lo replanteó para 'traducir' dichas preguntas a pruebas basadas en texto (similares a las que se harían para personas con discapacidad visual).

Para su sorpresa, con ese pequeño cambio, GPT-4 se situaba (por los pelos) en el límite inferior de la horquilla antes mencionada (85)... mientras que el recién lanzado Claude-3 superaba (también por los pelos) dicha media para situarse en el 101 (y de paso, liderar la clasificación de IA's). Aquí tienes el ranking completo:

Maximum Truth

Claude-3 sorprendió gratamente, no sólo por superar el promedio humano de CI, sino también por mostrar una progresión consistente a través de sus diferentes versiones: mientras que el primitivo Claude-1 apenas superaba el rendimiento de alguien que contesta preguntas al azar (ya sabes, hasta un reloj estropeado acierta dos veces al día), sus sucesores Claude-2 y Claude-3 mostraron mejoras incrementales que sugieren una evolución calculada y prometedora en sus capacidades cognitivas.

"Consideremos ahora las fechas de lanzamiento de las versiones:
Claude-1 de marzo de 2023
Claude-2 de julio de 2023 (4 meses de tiempo de producción)
Claude-3 de marzo de 2024 (8 meses de tiempo de producción)".

Según Lott, de hecho, la extrapolación de los datos sugiere que podríamos ver IA con CI alrededor de 120 en un futuro cercano, y eventualmente, modelos aún más avanzados capaces de superar prácticamente a cualquier ser humano en inteligencia.

Por supuesto, La evaluación de IAs con tests de CI plantea las mismas preguntas que el debate sobre la autoconsciencia: ¿qué aspectos de la inteligencia miden realmente estas pruebas? ¿Las puntuaciones obtenidas por una IA pueden compararse de manera creíble con las logradas por humanos?

En teoría, aunque las IAs han mostrado capacidades impresionantes en tareas específicas, como juegos de estrategia y reconocimiento de patrones, su "inteligencia" se diferencia significativamente de la inteligencia humana en términos de flexibilidad, generalización y comprensión contextual. Pero también es cierto que nunca habíamos tenido una 'IA' tan 'inteligente' hasta ahora, y eso sigue siendo relevante.

Imagen | Marcos Merino mediante IA

En Genbeta | La importancia de la IA de código abierto para evitar el 'escenario SkyNet'… el mismo que OpenAI y otros enarbolan para bloquearla 

Inicio