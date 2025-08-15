Reddit afirma que empresas de IA han extraído datos de Wayback Machine, por lo que limitará el acceso a esta reconocida herramienta. Su objetivo será impedir que Internet Archive indexe la gran mayoría de la información de Reddit lo que se traduce a que ya no podrá rastrear páginas de detalles de publicaciones, comentarios ni perfiles.

En cambio, solo podrá indexar la página principal de Reddit.com, lo que significa que Internet Archive solo podrá archivar información sobre los titulares y publicaciones más populares en un día determinado.

La misión de Internet Archive es mantener un archivo digital de sitios web en internet y otros temas culturales, y Wayback Machine es una herramienta que permite consultar las páginas tal como aparecieron en determinadas fechas. Se ha bautizado como la máquina del tiempo de internet.

Quejas a cómo se hace este archivo

El portavoz de Reddit, Tim Rathschmidt ha relatado a The Verge que "Internet Archive ofrece un servicio a la web abierta, pero hemos tenido conocimiento de casos en los que empresas de IA infringen las políticas de la plataforma, incluida la nuestra, y extraen datos de Wayback Machine", declaró.

Y es que Reddit cree que no todo su contenido debería archivarse de esa manera: "Hasta que puedan defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad del usuario o eliminar contenido eliminado), estamos limitando parte de su acceso a los datos de Reddit para proteger a los redditors", ha explicado Rathschmidt.

Los límites han comenzado a aumentar gradualmente desde hace un par de días y seguirán. Además, Reddit ha dicho haber contactado con Internet Archive con antelación para informarles sobre esta decisión.

Derecho al ¿olvido?

Afirma que Reddit también ha expresado su preocupación por la capacidad de las personas para extraer contenido de Internet Archive en el pasado. Esta plataforma permite a usuarios presentar sus quejas y frustraciones y también alegrías y solicitar consejo. Y mucha gente acaba eliminando las publicaciones tras un tiempo. Muchas veces, puede ser, porque ya han visto los comentarios de la gente, ya han recibido ideas y consejos...

Además, Reddit decidió hace tiempo cortar el acceso a herramientas de extracción de datos, ya que las empresas de IA las usan masivamente sin permiso (a veces mintiendo, como ya hemos visto). Aunque sí que están en disposición de proporcionar esos datos si las empresas de IA pagan (de hecho se descubrió en el pasado de que ya lo han hecho).

El año pasado, Reddit llegó a un acuerdo con Google para la Búsqueda de Google y los datos de entrenamiento de IA a principios del año pasado, y unos meses después, comenzó a impedir que los principales motores de búsqueda rastrearan sus datos a menos que pagaran, como recuerda The Verge.

Hace unas semanas, Reddit acusó a Anthropic de usar sus datos para entrenar su IA más de 100.000 veces después de decir que habían dejado de hacerlo. Al mismo tiempo, se ha probado que Anthropic contrató a un ex directivo de Google Books para comprar "todos los libros del mundo" y usarlos para entrenar IA y luego deshacerse de esos libros.

Imagen | Foto de Brett Jordan en Unsplash