El 'test de la manzana': una tarea para alumnos de Primaria que muchas IA suspenden miserablemente. Esta es la razón

Ethan Mollick es profesor en la Wharton School de la Universidad de Pensilvania, donde se especializa en estudiar el impacto de las startups y la innovación en la economía. Sin embargo, en los últimos meses se ha destacado cada vez más como una referencia informativa en materia de inteligencia artificial.

Y eso ha provocado que poco a poco se popularice un concepto que gusta de usar cada vez que se enfrenta a un nuevo modelo de lenguaje: el 'test de la manzana'. Dicho test es una forma de evaluar IAs, más concretamente la capacidad de los 'modelos de lenguaje' (como GPT-4, por ejemplo) para manejar tareas lingüísticas con un mínimo de complejidad.

Su creador, por lo que parece, fue Daniel Monge, quien el 17 de abril del año pasado afirmaba sobre OpenAssistant (un modelo de lenguaje minoritario y open source) que dicha IA no era capaz de superar el 'test de la manzana' y describía éste como pedirle al chatbot que escriba "10 oraciones que terminen con la palabra 'manzana'".

Sin duda, puede parecer una prueba algo pobre para juzgar a ChatGPT, Gemini, Bing Chat, Claude y compañía. Aunque quizá sólo estás pensando eso porque para ti puede resultar sencillo superar esa prueba... pero, como decía Monge, resulta "una tarea no trivial para un modelo autorregresivo" (los modelos de lenguaje como GPT son autorregresivos porque usan sus propios valores pasados como entrada para predecir sus valores futuros).

Un vistazo a…

CHAT GPT-4 en 4 MINUTOS

Poniendo a prueba

Empecemos echando un vistazo a ChatGPT... pero usando GPT-3.5 (el modelo de lenguaje de su versión gratuita):

GPT-3.5: 1/10 (Suspenso)

Vaya 'fail'. Ahora, probemos con GPT-4:

GPT-4: 9/10 (Sobresaliente)

Mucho mejor. Y Copilot, que también se basa en GPT-4, ¿cómo lo hará? Pues probemos primero con su 'sabor' por defecto, 'Equilibrado':

Copilot 'Equilibrado': 1/10 (Suspenso)

Vaya, inesperado. ¿Qué ha podido pasar? Pues no lo tenemos claro, pero probemos con los dos otros 'sabores' de Copilot: 'Creativo' (izquierda) y 'Preciso' (derecha):

Copilot 'Creativo': 10/10 // Copilot 'Preciso': 8/10

La variante más precisa, la 'creativa'. Las sorpresas no se acaban. Ok, pero basta ya de tanto GPT, probemos con los modelos Gemini de Google, a ver qué son capaces de ofrecer. Empecemos con la versión 'normal' (gratuita):

0/10

Espectacular (en el mal sentido de la palabra). Pero bueno, antes vimos que había una enorme diferencia entre las versiones gratis y de pago de la IA de OpenAI, es de esperar que pase lo mismo cuando probemos Gemini Advanced, ¿no? Venga, a ver si nos encontramos con otro sobresaliente:

2/10

Vaya, qué 'fail' más espectacular, Google.

En Genbeta

Estos son los siete errores más comunes al usar ChatGPT y otras inteligencias artificiales. Corregirlos es muy sencillo

Explicación técnica

Pero ¿por qué una tarea para alumnos de Primaria resulta ser un reto para inteligencias artificiales como las anteriores? Por varias razones:

Gestión de la anticipación: Para que una oración termine con una palabra específica, el modelo necesita planificar su generación de texto con anticipación. Esto es especialmente desafiante en los modelos autorregresivos, que generalmente generan texto palabra por palabra, avanzando sin la capacidad de revisar y ajustar el contenido anterior basado en decisiones futuras.
Uso inusual de estructuras de lenguaje: La mayoría de los textos no siguen patrones tan específicos como terminar oraciones con una palabra en particular. Esto significa que el modelo debe adaptarse para generar un contenido que se desvía de las estructuras lingüísticas que ha aprendido durante su entrenamiento.
Necesidad de coherencia: Mantener la coherencia en una serie de oraciones con una restricción tan específica puede ser difícil. El modelo necesita no sólo generar oraciones que terminen con "manzana", sino también asegurarse de que estas oraciones tengan sentido entre sí y con el contexto proporcionado.
Comprensión + creatividad: El desafío también pone a prueba la capacidad del modelo para entender el significado y utilizarlo de manera creativa. Debe generar oraciones que no solo cumplan con la restricción sintáctica, sino que también sean variadas, interesantes y semánticamente válidas.
Balance entre repetición y novedad: Crear múltiples oraciones que cumplan con el mismo requisito sin caer en repeticiones excesivas o patrones predecibles también es un reto. El modelo debe equilibrar la generación de contenido novedoso con la restricción de terminar con "manzana".

Imagen | Marcos Merino mediante IA

En Xataka | Las conversaciones privadas de los usuarios con ChatGPT están encriptadas. Y pese a ello los hackers las están leyendo

El 'test de la manzana': una tarea para alumnos de Primaria que muchas IA suspenden miserablemente. Esta es la razón

Lo que resulta fácil para los cerebros digitales no siempre lo es también para los humanos. Y viceversa

Poniendo a prueba

Explicación técnica

Explora en nuestros medios

Poniendo a prueba

Explicación técnica

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios