Los artistas digitales, pintores y fotógrafos empiezan a preguntarse si entre los miles de millones de imágenes usadas para entrenar los modelos de IA de síntesis de imágenes como DALL-E 2 o Stable Diffusion —tan de moda en los últimos meses— se encuentran sus propias creaciones, previamente publicadas en Internet y seleccionadas por los creadores de estas IAs para formar parte de sus respectivos 'datasets'.
Por ello, el matrimonio de artistas Mat Dryhurst y Holly Herndon, ellos mismos veteranos en el entrenamiento de redes neuronales, han creado un sitio web a partir de la información de uno de esos datasets; concretamente LAION-5B, usado para entrenar Stable Diffusion, Midjourney y los modelos Image AI de Google, y que contiene 5.800 millones de imágenes. Aunque advierten que, en el futuro, se agregará el contenido de fuentes de datos.
Dicha web se titula 'Have I Been Trained?', y permite realizar búsquedas como si estuviéramos usando Google Imágenes (es decir, tanto subiendo una imagen de referencia para realizar una búsqueda inversa como introduciendo un término de búsqueda). Gracias a eso, podremos buscar nuestras propias imágenes para saber si han sido usadas en este dataset, o meramente explorar el contenido del mismo.
Esta web no nos permite, cuando exploramos el contenido de LAION-5B, conocer qué clase de metadatos han vinculado a las mismas los creadores del dataset, pero para eso podemos recurrir a otra web (Laion-aesthetic-6pls), que no permite búsquedas inversas, pero que ofrece mucha más información sobre las imágenes incluidas en el dataset (o, al menos, sobre una pequeña muestra de las mismas).
Los metadatos constituye un aspecto muy importante del uso de las imágenes para entrenamiento de la IA, pues la correspondencia entre imagen y datos determina la calidad de los resultados cuando introducimos términos en los generadores de imágenes (lo que conocemos como 'prompts'). Esos prompts determinan de qué imágenes reales extrae la IA los patrones (que no 'trozos de imagen') que después aplicará a las obras generadas.
Un debate sobre lo éticamente aceptable
El objetivo de Dryhurst y Herndon es promover un debate sobre el límite entre lo ético y lo tecnológicamente posible, al denunciar el uso sin consentimiento de imágenes extraídas de grandes plataformas de Internet como Pinterest, Getty Images, ArtStation o DeviantArt.
Ellos mismos están promoviendo (a través de la organización Spawning) el desarrollo de un estándar llamado Source+, diseñado como un mecanismo para que los artistas permitan y denieguen el uso de sus imágenes (y textos, y audios) como datos de entrenamiento.
"Soy muy optimista sobre la posibilidad y utilidad de crear una base de datos verificada de los deseos de inclusión y exclusión voluntaria de los artistas".
El objetivo de Spawning no es el de evitar que los usuarios de Stable Diffusion puedan escribir "house in Rembrandt style" como prompt de la IA, porque este artista está muerto y su trabajo es ya de dominio público. Sus responsables están, por el contrario, más preocupados por el hecho de que pueda usarse sin su permiso el estilo distintivo de artistas vivos.
E incluso ellos, con el tiempo, creen, no se opondrán masivamente a incorporar sus obras a datasets:
"Creo que, en última instancia, más optarán por participar que por no participar, pero primero tenemos que establecer un respeto mutuo".
Vía | Ars Technica
Imágenes | Generadas mediante DALL-E 2