En los últimos años, hemos visto cómo la inteligencia artificial se alimenta de enormes cantidades de información disponible en Internet: páginas web, artículos, imágenes, vídeos o bases de datos. Gracias a ese contenido, los modelos de IA aprenden a escribir textos, generar imágenes o responder preguntas.

Pero aquí surge un gran problema: la práctica totalidad de esos contenidos se usan sin permiso ni compensación para sus creadores.

Este "vacío legal" amenaza la economía de la web, porque los editores y creadores ven cómo su trabajo se utiliza para entrenar a las IAs… sin recibir nada a cambio. La buena noticia es que ha nacido un estándar abierto que quiere poner orden en este caos: RSL, Really Simple Licensing.

¿Qué es RSL?

RSL significa, en español, "Licencias Realmente Simples": en cierto sentido, podemos verlo como una evolución del RSS, aquel formato que en los años 2000 permitió distribuir contenidos de forma automática entre webs, blogs y aplicaciones (y que aún hoy sigue resultando tremendamente útil para seguir las actualizaciones de docenas o cientos de webs al mismo tiempo).

La idea es sencilla: un lenguaje universal y legible por máquinas que indique qué pueden hacer (y qué no) los rastreadores, bots e inteligencias artificiales con los contenidos de una web. En otras palabras, RSL añade una 'capa de licencias' a Internet: una especie de contrato digital que se publica en cada web y que las máquinas pueden leer al instante.

¿Cómo funciona?

Implementar RSL en una web (para que los bots de IA puedan leer automáticamente sus términos de uso antes de consumir el contenido) es tan fácil como seguir tres pasos:

Crear un archivo llamado license.xml en la raíz de la web. En él se definen los permisos: ¿Se puede usar el contenido gratis? ¿Hace falta pagar por rastreo o por inferencia? ¿Se requiere atribución (citar la fuente)? ¿Está prohibido usarlo para entrenar IAs?. Añadir la referencia en el archivo robots.xml, el mismo que usan los buscadores para saber qué páginas pueden indexar. Unirse opcionalmente al RSL Collective, una organización sin ánimo de lucro que facilita las licencias colectivas y reparte las compensaciones (una especie de 'SGAE internacional de los derechos de contenidos web').

Vale, pero ¿por qué es relevante esta tecnología?

Porque RSL da herramientas a los creadores para negociar. Hasta ahora, la única defensa era bloquear el acceso de los bots mediante 'robots.txt' (que ofrece la posibilidad de decir "sí" o "no"), o usar sistemas de bloqueo como el de Cloudflare (que, bueno, sólo ofrecen el "no"). Con RSL se pasa a un "sí, pero bajo estas condiciones". Esto abre la puerta a: un mercado de contenidos legal y justo, en el que las empresas de IA tengan que pagar por usar datos.

Ejemplos prácticos

Lo bueno del estándar RSL es que permite muchas combinaciones. Por ejemplo:

Una web de noticias puede permitir ser indexada en buscadores, pero prohibir el uso de sus artículos para entrenar modelos de IA .

. Un creador independiente puede autorizar el uso de su obra bajo licencia Creative Commons , siempre que se le cite.

, siempre que se le cite. Una editorial puede exigir pago por inferencia , es decir, cobrar cada vez que una IA genere una respuesta basada parcialmente en sus contenidos.

, es decir, cobrar cada vez que una IA genere una respuesta basada parcialmente en sus contenidos. Una empresa de comercio electrónico puede aceptar que su web se use para entrenar IA, pero pidiendo a cambio informes de uso y atribución con enlace a la tienda.

¿Resolverá el problema?

RSL no es una varita mágica: todavía habrá empresas que ignoren las licencias o que intenten "rascar" contenido sin cumplir las normas. Pero al menos crea un marco común, sencillo y automatizable, que puede convertirse en la base de un ecosistema sostenible en la era de la IA.

Es parecido a lo que pasó con la música: al principio reinaba las descargas no autorizadas, pero con el tiempo surgieron plataformas que pagaban royalties y la industria se estabilizó. Quizá RSL logre lo mismo para los contenidos digitales.

¿Quién lo respalda?

Lo sorprendente es que no se trata de una idea aislada: grandes empresas, personalidades y comunidades de Internet ya se han sumado. Entre los nombres hay algunos que seguro que te suenan: Reddit, Yahoo, Medium, Quora, wikiHow, O’Reilly Media... El estándar cuenta además con el apoyo de veteranos de internet como Tim O’Reilly y RV Guha (co-creador del RSS), lo que refuerza su credibilidad.

Imagen | Marcos Merino mediante IA

