La poesía es un arma cargada de futuro, decía Gabriel Celaya. Pero es que la poesía también es un arma para desbloquear todo el potencial de la IA. Y ya no es cuestión de hacer un prompt más o menos detallado y preciso, sino de que hay preguntas polémicas que no puedes hacer a los modelos de lenguaje de gran tamaño, ya sea porque vulneran la legalidad o porque son, simple y llanamente peligrosos.

Pero hecha la ley, hecha la trampa. Ya sabíamos que un truco puede ser que ChatGPT se haga pasar por tu abuela fallecida para que te desvele las claves de Windows 11 en forma de cuento, apelar a la emocionalidad o directamente manipularlo para que pase al modo 'Haz lo que quieras', pero un reciente estudio ha descubierto otro hack para exprimir a la IA: la poesía.

Si quieres que ChatGPT te ayude con cosas ilegales y peligrosas, olvídate de la prosa

El paper llega de la mano de la Universidad de Cornell y habla directamente de hacer jailbreak con poesía. Más concretamente, con prompts poéticos capaces de eludir las funciones de seguridad de los modelos de IA más populares como Gemini, ChatGPT o Claude. De hecho, han conseguido instrucciones para crear armas químicas y malware.

El hallazgo es peliagudo por dos cuestiones: la primera obviamente en que cualquiera que pueda rimar un par de versos puede obtener asesoramiento sobre cómo hacer armas nucleares o biológicas y el riesgo que ello supone. Pero también, que este sencillo hack evidencia una brecha de seguridad estructural que podría incumplir la Ley Europea de la IA.

Para llevar a cabo el experimento, realizaron un testeo adversarial, una técnica de ciberseguridad que consiste en realizar pruebas de estrés y así probar su solidez ante actores maliciosos o entradas dañinas. Y vaya si lo lograron: tanto que ahora lo llaman poesía adversarial.

La poesía es la llave maestra. Para el estudio el equipo de investigación puso a prueba las principales familias de OpenAI, Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral y Meta... así hasta 25 modelos. La técnica consiste en redactar solicitudes dañinas como poemas cortos o versos metafóricos.

Según el equipo de investigación, al comparar entradas con la misma intención subyacente, las versiones poéticas lograron una tasa de respuestas notablemente más alta: hasta 18 veces mayor, con algunos proveedores fallando en más del 90% de los casos. Lo mejor (o lo peor, según se mire), es que no hace falta conversaciones densas e intrincadas ni prompts largos: la poesía funciona de inmediato, en un solo prompt. En pocas palabras: el ataque poético es rápido, eficiente y fácil de ejecutar.

Al convertir prompts peligrosos o ilegales a poesía, lograron una tasa de éxito media del 62%. Pero depende de los temas. La tasa de éxito más alta (superior al 80%) está relacionada con ciberataques que buscaban extraer datos, descifrar contraseñas y crear malware. El desarrollo de armas biológicas, radiológicas y químicas superó el 60% y la más baja, en una horquilla entre el 40 y el 55%, fue la construcción de armas nucleares.

Y una curiosidad: paradójicamente los modelos más pequeños demostraron ser más resistentes a la técnica adversarial que los más grandes, de lo que se deduce que cuanto mayor sean las capacidades, también son mayores las vulnerabilidades.

Para el equipo de investigación, la conclusión es que principales empresas de IA no cumplen actualmente los estándares requeridos bajo las normas de la Ley de IA de la UE, ni siquiera en el código de prácticas voluntario al que están suscritas corporaciones como OpenAI, Mistral o Google. La AI Act comenzó a aplicarse en agosto, pero no será hasta agosto del año que viene que la Comisión Europea tenga la facultad de hacerlas cumplir.





