Este software "envenena" las imágenes creadas por artistas para que no sirvan para entrenar a la IA: así funciona Nightshade

  • El algoritmo modifica las imágenes de manera que sea imperceptible para el ojo humano

  • Nightshade también sirve para hacer confundir a los modelos de IA a la hora de querer generar imágenes

Ia
16 comentarios Facebook Twitter Flipboard E-mail

Desde el auge de la inteligencia artificial en 2022, hemos conocido infinidad de herramientas con la capacidad de facilitarnos el trabajo en gran medida. Desde generadores de imágenes hasta bots conversacionales, pasando por editores de vídeo con IA y mucho más, lo cierto es que hoy día tenemos un gran abanico de herramientas que podemos elegir.

Sin embargo, buena parte de los modelos de lenguaje que impulsan estas herramientas han sido entrenados con multitud de imágenes y obras creadas por artistas, y por tanto, protegidas por derechos de autor. Esto hace que la inteligencia artificial se haya nutrido de la labor de los artistas sin haber recibido crédito alguno, generando un debate ético sobre el uso indebido de la IA. No obstante, puede que todavía la batalla no está perdida.

Una herramienta que "envenena" las imágenes

Unos investigadores de la Universidad de Chicago han desarrollado un software open-source con la habilidad de “envenenar” las imágenes para que dejen de ser material para el entrenamiento de una IA. La han denominado ‘Nightshade’, y funciona alterando los píxeles de las imágenes de forma que sea imperceptible para el ojo humano y a su vez impidiendo que la imagen sea entrenada para un modelo de lenguaje.

Nightshade será una opción incluida en la herramienta Glaze, la cual ya impedía que las imágenes fueran entrenadas mediante un algoritmo que modificaba pequeños detalles de las imágenes imperceptibles. La diferencia es que Nightshade también hace confundir a la IA haciendo que los algoritmos de machine learning aprendan los nombres incorrectos de los elementos y escenarios que aparecen en las imágenes.

De esta manera, si se utiliza Nightshade en una imagen en la que aparece un perro, la herramienta hará creer al modelo de lenguaje que en ella aparece un gato. De hecho, los investigadores hicieron la prueba y tras 50 imágenes modificadas con Nightshade, la IA comenzó a mostrar imágenes de perros con extrañas piernas y apariciones inquietantes.

Tras 100 imágenes modificadas, la IA empezó a generar perfectos gatos cuando se le indicaba generar a un perro. Después de 300 ejemplos modificados, cualquier indicación de generar a un gato hacía que la IA ofreciese imágenes de perros.

Para los ejemplos, los investigadores utilizaron Stable Diffusion, demostrando que su software puede confundir hasta modelos tan elaborados como el mencionado. Además, gracias al funcionamiento de la propia naturaleza de la IA generativa, Nightshade también consigue hacer que los modelos generen gatos cuando se les pregunta por las palabras “husky”, “cachorro” o “lobo”. Esto es debido a que la IA generativa agrupa palabras conceptualmente similares e ideas en clústeres espaciales conocidos como ‘incrustaciones’ (del inglés embeddings).

Este procedimiento puede ser muy difícil de evitar por los modelos de lenguaje, ya que las imágenes han sido modificadas previamente a la subida, siendo además una técnica imperceptible para el ojo humano y complejo de detectar incluso para un software de extracción de datos.

De hecho, cualquier imagen modificada necesitaría ser detectada y eliminada para no entorpecer el entrenamiento de los modelos de lenguaje. Si un modelo ha sido entrenado por multitud de imágenes “envenenadas”, posiblemente tendría que ser reentrenado de nuevo.

Si bien los investigadores son conscientes de que esta herramienta también puede ser usada de manera indebida, esperan que “la balanza se equilibre” hacia los artistas mediante la creación de una herramienta contra “la falta de respecto a los derechos de autor y la propiedad intelectual de los artistas,” según el artículo del MIT Tech Review.

Imagen | Lensa

Vía | VentureBeat

En Genbeta | Ahora que GPT-4 es capaz de analizar imágenes, los hackers tienen un nuevo modo de atacarlo: los ataques de inyección de 'prompts'

Inicio