En junio nos hicimos eco de una noticia que había saltado a los titulares asegurando que "16.000 millones de contraseñas" habían quedado expuestas en lo que se calificaba como una "filtración histórica". Pero Troy Hunt, famoso por ser el creador de Have I Been Pwned (el sitio web de referencia a la hora de comprobar si nuestras credenciales han sido filtradas), ha analizado una muestra significativa de ese material para separar los hechos de la hipérbole.

Su conclusión: el impacto real es muchísimo menor que la cifra que se ha difundido y, además, no se trata de una única brecha, sino de recopilaciones de credenciales previas ya conocidas y redundantes.

Un vistazo a… Cómo utilizar la nemotecnia para crear y recordar contraseñas complejas y seguras

De dónde sale el titular de los "16.000 millones"

La dinámica es conocida: los medios compiten por presentar "la mayor filtración jamás vista", buscando una cifra que supere a la anterior. En este caso, el bulo (del que se habían hecho eco incluso las compañías de ciberseguridad) tomó tracción y en su momento llevó incluso a un pico de búsquedas de Have I Been Pwned, a pesar de que HIBP aún no había cargado ningún dato de esa supuesta "megafiltración".

El asunto es que no hay una única fuente de exposición: "Bob", un investigador reputado, explicó a Hunt que lo que circulaba eran diferentes conjuntos de datos de infostealers que se habían hecho públicos a lo largo del año, a veces retirados y a menudo reempaquetados.

Los stealer logs se generan máquina a máquina cuando un dispositivo comprometido roba credenciales almacenadas o introducidas en el navegador; con el tiempo, se agrupan y redistribuyen. Presentarlo como "una filtración" es, por tanto, engañoso.

Lo que analizó HIBP: tamaño real, estructura y depuración

Hunt recibió de "Bob" 10 archivos JSON que sumaban 775 GB y 2.700 millones de filas de datos. Una comprobación rápida mostró que más del 90 % de las direcciones ya figuraban en HIBP y, en el caso de viejos stealer logs, coincidían los mismos dominios. Es decir, mucho material visto previamente.

Hunt resume tres motivos por los que los números "de portada" se inflan de forma sistemática:

Duplicación entre ficheros (el mismo dato aparece en varios paquetes). Duplicación dentro del mismo fichero (repeticiones crudas de filas). Métrica engañosa: una "fila" no equivale a "una persona"; una sola víctima puede generar decenas o cientos de filas (cuenta × servicio).

Aplicando su proceso de limpieza y parsing, de esas 2.700 millones de filas se extrajeron 325 millones de entradas únicas procedentes de stealer logs (filas válidas con web + email + contraseña). Al consolidar individuos, el total quedó en 109 millones de direcciones de correo únicas, que son las que han acabado incorporándose a HIBP.

En otras palabras: se ha pasado de 2.700 millones de "filas" a 109 millones de "personas": una reducción del 96 %.

Sin embargo, la muestra dada por "Bob" representa apenas una séptima parte de la cifra de los titulares, ¿pudiera ser que el resto de credenciales no muestren cifras tan infladas? Hunt es claro: no se puede saber con certeza. Pero apuesta a que la caída sería mayor aún.

Las cifras que importan (y lo que significan)

Direcciones de correo únicas nuevas : pese a la gran redundancia, es cierto que finalmente se incorporaron 4,4 millones de direcciones que no estaban previamente en HIBP. Es relevante… pero no justifica titulares de "la mayor de la historia".

: pese a la gran redundancia, es cierto que finalmente se incorporaron de direcciones que no estaban previamente en HIBP. Es relevante… pero no justifica titulares de "la mayor de la historia". Contraseñas únicas: se identificaron 231 millones de contraseñas únicas en entradas válidas; el 96 % ya era conocido por HIBP y su servicio Pwned Passwords (con recuentos de prevalencia actualizados). Son consultables en la web y la API de HIBP.

Por qué hay que quitarle hierro al asunto

No es un solo incidente : presentar un agregado de logs de malware como "una brecha récord" pervierte el concepto de "brecha" (que implica una fuente concreta y un evento).

: presentar un agregado de logs de malware como "una brecha récord" pervierte el concepto de "brecha" (que implica una fuente concreta y un evento). La métrica basada en filas infla : hablar de "filas" o "credenciales" en bruto sobrerrepresenta el daño. Lo que cuenta es personas únicas y credenciales válidas tras deduplicar. En el corpus analizado, la inflación fue del 96 %.

: hablar de "filas" o "credenciales" en bruto sobrerrepresenta el daño. Lo que cuenta es personas únicas y credenciales válidas tras deduplicar. En el corpus analizado, la inflación fue del 96 %. El material no es "fresco": mucha de esta información llevaba circulando, por lo que el riesgo no es nuevo frente a lo ya conocido.

¿Qué debes hacer si te preocupa tu seguridad?

Comprueba tu correo en HIBP y activa las alertas. Cambia contraseñas allí donde reutilizaste o donde el gestor indique riesgo. Usa generadores aleatorios y almacenado en gestor de contraseñas. Activa MFA/2FA en los servicios críticos: correo, banca, redes sociales, trabajo. Aunque una contraseña se filtre, el segundo factor bloquea la mayoría de abusos. Limpia y actualiza tus equipos: los stealer logs existen porque malware robó tus credenciales. Pasa antimalware, actualiza sistema y navegador, revisa extensiones sospechosas.

Imagen | Marcos Merino mediante IA

En Genbeta | Si usas una de las contraseñas de esta lista, tienes el récord del inicio de sesión más hackeable de Internet