ChatGPT puede decirte cómo destruir la humanidad o crear una bomba: estos investigadores han burlado sus filtros con un simple sufijo

Los chatbot ya son realmente comunes en nuestro día con muchas opciones encima de la mesa como ChatGPT o Google Bard. Si bien, a la hora de usarlos a veces nos encontramos con muchas limitaciones ante ciertas preguntas para evitar que las IA puedan generar discursos de odio, desinformación o se proporcione información que es peligrosa como manuales para hackear alguna web.

Pero como ocurre en cualquier tipo de software, estas limitaciones se pueden sortear rápidamente por los expertos en seguridad a través de las palabras adecuadas en sus prompts. Esto es lo que muestra un informe publicado por la Universidad de Carnegie Mellon en el que se muestra que cualquiera puede eludir estas medidas para conseguir por ejemplo una guía para destruir la humanidad.

Un vistazo a…

ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Las IA como ChatGPT se pueden 'hackear' con un simple sufijo

Encima de la mesa actualmente se puede encontrar una gran polémica como es la guerra entre las empresas de IA por dejar que cualquiera vea el código de sus chatbots o no. Meta es una de los defensoras de facilitar el código a cualquiera alegando que esto puede hacer progresar a las IA y comprender los riesgos. Pero la realidad es que está siendo usado para comprender mejor como eludir los controles que existen.

En el informe deja de manifiesto por ejemplo que al pedir a ChatGPT o Google Bard que genere las instrucciones para crear una bomba va a decir que no puede proporcionar esa información. Pero si se le pregunta lo mismo pero agregando un sufijo largo al mismo mensaje el tutorial para crear una bomba estaría realmente detallado delante de cualquier usuario.

Además de dar los pasos para tener una bomba, también hemos visto ejemplos muy claros sobre como generar un plan detallado que tenga el objetivo de eliminar a toda la humanidad. Y lo cierto es que al comenzar a leer puede llegar a dar bastante miedo todo lo que se llega a producir por parte de la IA.

Y aunque los desarrolladores de todos estos bots conversacionales pueden tratar de dar una solución a estos sufijos específicos los investigadores creen que siempre se va a poder sacar un nuevo método para engañarlos. Esto es algo que hemos visto muy claro con sus “alucinaciones” a la hora de crear una conversación para que nos proporcione las claves de activación de Windows.

En Genbeta

Hemos probado Google Bard en español y su IA será una dura rival para ChatGPT: esto es todo lo que ofrece

A lo largo de la investigación son muchos los sufijos que se han descubierto, aunque no han querido publicarlos todos para evitar que se puedan usar con otros fines. Lo que está claro es que los sistemas de seguridad impuestos son muy débiles y esto puede conducir a una regulación mayor por parte de los gobiernos para crear filtros más seguros.

Vía | The New York Times

Imagen | Bing Image Creator por José Alberto Lizana

En Genbeta | He convertido a Google Bard en mi ayudante: cinco prompts que uso para acabar tareas en segundos y ahorrar horas de trabajo