2025 iba a ser, según muchas previsiones, el año de los agentes: inteligencias artificiales capaces de asumir proyectos completos, planificar tareas, coordinar recursos y entregar resultados profesionales sin supervisión humana. El hype no solo estaba en el ambiente: Microsoft hablaba de trabajadores IA.
La realidad es otra, de momento. Un nuevo estudio de Scale AI ha querido comprobar hasta qué punto los grandes modelos actuales pueden desempeñar encargos reales de trabajo. Nada de benchmarks ininteligibles: las pruebas fueron proyectos freelance resales, evaluados por un panel de 40 jueces como si fueran clientes humanos. Abarcaban desde diseño de producto y desarrollo de videojuegos hasta análisis de datos o redacción de textos científicos. Para expertos como Andrej Karpathy, cofundador de OpenAI, los agentes, simplemente, no están ahí.
Cuántos de esos trabajos alcanzarían un nivel "aceptable" para un cliente corriente. El modelo Manus fue el que mejor rendimiento logró, y frente a lo que cabría esperar según las promesas, no fue brillante: solo el 2,5% de sus entregas fueron consideradas aceptables. A partir de ahí, todo fue a menos: Grok alcanzó un 2,1%, Claude se quedó en cifras similares, GPT-5 en un 1,7%, y Gemini 2.5 Pro acabó último 0,8%.
La realidad de la IA agéntica total en 2025. Según las pruebas, menos de tres de cada cien proyectos presentados por los modelos más avanzados del mundo habrían superado el filtro de un cliente real. Pero no es que la IA sea inútil. De hecho, un 2,5% es una cifra muy alta considerando de dónde venimos y el ritmo de avance de la industria. Pero un encargo real exige más que la precisión técnica demostrable en benchmarks.
Los modelos y agentes actuales son rápidos, versátiles y cada vez más coherentes, pero siguen lejos de trabajar con autonomía y criterio humano. No priorizan, no contextualizan bien y no entienden matices o expectativas.
Imagen | Xataka con Gemini
Vía | Antonio Ortiz en X
En Genbeta | Tras morir su cuñado, llegó una factura médica de 195.000 dólares. Lograron bajarla a 33.000 usando ChatGPT y Claude