Tras la aparición de cada vez mejores y más avanzados modelos de IA, herramientas tales como ChatGPT, Gemini, Copilot y otras tantas son utilizadas a diario para todo tipo de propósitos, algunos cada vez más complejos. Si bien ahora empezamos a ver toda una oleada de modelos con modos de razonamiento profundo, aún hay tareas de las que no podemos depender enteramente del desempeño de este tipo de asistentes.
Sin ir más lejos, investigadores de OpenAI han admitido que, incluso los modelos más avanzados de IA aún no pueden superar a los programadores humanos. Si bien Sam Altman, máximo responsable de la compañía, insiste en que la IA logrará superar a los ingenieros de software de ‘bajo nivel’ a finales de este año, el estudio lanzado por unos investigadores de OpenAI difiere en esa afirmación.
Los modelos de IA son cada vez más avanzados, pero no superan a un programador de software
En este paper, los investigadores de la firma concluyeron que, incluso aquellos modelos más sofisticados, “siguen siendo incapaces de resolver la mayoría de las tareas de programación”. Para ello, utilizaron un benchmark desarrollado recientemente denominado SWE-Lancer.
Este benchmark ha sido desarrollado con la ayuda de más de 1.400 problemas de desarrollo de software del sitio web para programadores autónomos Upwork. Habiendo hecho uso del benchmark, los investigadores hicieron la prueba con tres modelos de IA: o1, GPT-4o y Claude 3.5 Sonnet de Anthropic.

La prueba evaluaba cómo estos modelos de IA rendían con dos tipos principales de tareas: problemas individuales, que se centraban en resolver bugs e implementar correcciones, y tareas de gestión, donde los modelos intentaban ampliar el alcance y tomar decisiones de alto nivel. Ningún modelo tenía acceso a Internet, lo que significa que no podían obtener las respuestas de otros sitios web.
Los modelos comenzaron a encargarse de tareas por un valor acumulado de cientos de miles de dólares en Upwork, aunque solamente fueron capaces de solucionar problemas superficiales de software. Fueron incapaces de encontrar errores en proyectos más grandes o encontrar causas algo más complejas. Esta situación quizás les sea familiar a aquellos programadores que utilizan la IA como ayuda adicional, pues sabrán que es muy buena escupiendo información de manera confiada, pero que acaba fallando cuando examinamos más de cerca.
Como lógicamente cabía esperar, los modelos de IA trabajaron mucho más rápido de lo que lo haría un ser humano. Sin embargo, en el documento señalan que estos modelos tampoco comprendieron lo extensos que eran los problemas ni el contexto. Esto llevó a soluciones “incorrectas o insuficientemente integrales”.
Cuando se trata de código, el modelo de Anthropic gana, tal y como ya ha demostrado su nuevo modelo Claude 3.7 Sonnet. De hecho, en el test que evaluaron los investigadores Claude 3.5 rindió mejor que los modelos de OpenAI, e hizo más dinero en Upwork que o1 o GPT-4o. No obstante, cabe señalar que la mayoría de las soluciones eran incorrectas y, según los investigadores, cualquier modelo necesitaría “mayor fiabilidad” si queremos confiar en alguno de ellos para programación en tareas del mundo real.
De esta manera, la investigación parece concluir que, a pesar de que los modelos de IA más sofisticados pueden trabajar de forma mucho más rápida y solucionar tareas con un alcance más limitado, aún no han adquirido la habilidad de un ingeniero de software.
Aunque lo que está claro es que los modelos de IA han avanzado rapidísimo en los últimos años, lo que ha permitido que muchos programadores usen estas herramientas como apoyo para su trabajo, sobre todo en lo que respecta a la revisión de errores localizados y aislados por parte del trabajador. Por suerte, OpenAI puede continuar mejorando sus productos sin despedir a sus trabajadores.
Imagen de portada | John Schnobrich
Ver 1 comentarios