Los robots de Google analizan toda la web continuamente en busca de enlaces para actualizar los registros del buscador. Pero hay veces que los propietarios de sitios web no quieren que se indexen esos enlaces, así que ponen ciertas restricciones en el archivo robots.txt. Por ejemplo, si eres Dropbox, no querrás que Google indexe todos los archivos que tus usuarios comparten a través de Internet.
Cuando un usuario comparte un archivo a través de Dropbox, la dirección es de la forma http://dropbox.com/sh/pongaAquíSuId, y por lo tanto en robots.txt pondremos Disallow: /sh/. Hasta aquí todo muy fácil: los robots de Google llegan y leen el archivo. Si se encuentran con algún enlace hacia dropbox.com/sh/algo, sólo se queda con la dirección y con el título, que se guardan en la base de datos de Google. El robot no lee el contenido del fichero.
Normalmente no podríamos acceder al contenido de esos ficheros desde Google. Sin embargo, según cuenta Chema Alonso gracias al descubrimiento de Alan Brian, sí que quedan algunos rastros en el buscador que se pueden recuperar usando técnicas de hacking con buscadores. La idea es sencilla: simplemente le decimos a Google que nos muestre todos los resultados que tenga indexados en dropbox.com/sh con la consulta site:dropbox.com/sh.
Añadiendo términos de búsqueda podemos encontrar cosas interesantes, como listas de usuarios y contraseñas, algún recibo bancario y documentos "secretos". En mi caso, he llegado a encontrar un guión de cine entre esos archivos. Chema Alonso comentaba que recuperó las diapositivas que había perdido de una de sus charlas. Una mina.
¿Cómo resolver este problema? La teoría es fácil: sólo hay que poner una etiqueta en el contenido de la página para que Google ni siquiera guarde el título ni la URL. Pero como por las reglas de robots.txt los robots no van a analizar el contenido de la página y no van a encontrar la etiqueta noindex. Es un fallo de diseño muy confuso en la forma de indexar de Google.
Eso sí, esto tampoco se puede considerar un fallo de privacidad de Dropbox. Google ha encontrado la URL de estos archivos porque alguien la ha puesto en algún momento en Internet, y los robots de la gran G han llegado a ella. Para lo que sí debería servir este hallazgo es para recordaros que la seguridad por oscuridad, el confiar en que "nunca nadie encontrará esto" no es una buena estrategia, y que debéis evitar en la medida de lo posible compartir cosas sin control por Internet.
Ver 9 comentarios
9 comentarios
asdfgh2
Entonces si es un fallo de la privacidad de Dropbox. Si los bots de Google han leído en los Robotos.txt de Dropbox que pueden acceder al menos al nombre y la URL del archivo es que el Robot.txt se lo ha permitido. Porque si no lo tengo entendió mal los robos.txt sirven para decirle a los bots de Google o al de cualquier buscador a que contenido y a que no pueden acceder.
Ademas un empresa como Dropbox que ella misma se considera la suiza de internet deberían tener los directorios protegidos por contraseña.
daniel.martindomenech
Pero esto no es ninguna novedad. De hecho hay ya unos pocos libros que hablan de como "hackear" con Google.
De hecho, no se salva tampoco Google Drive.
site:drive(dot)google(dot)com password
#### Obvio cambiar los dot por . ####
Con esa busqueda, podemos llegar a cosas como: ITIL - Google Drive
Con contenidos como:
These books are given to us by TSO for training and trainer development and are not
intended to be distributed outside Quint Wellington Redwood. The password is traceable
to Quint, so it is very important that these copies will not be distributed to non-Quint
employees.
Keep this password and the books confidential, for questions: practicedeskXXXXX
The password to open the books is: "XXXXX"
Obviamente no pongo la clave por si se me pudiera amonestar, pero ahí está.
Usuario desactivado
pues yo he encontrado de todo fotos, pasa hasta pornosotros aun tengo la esperanza de encontra un monedero con bitcoins :P
charlie_johnny
Di click a un link al azar y me topo con un tipo enseñando las pelotas...