La anatomía de un motor de búsqueda hipertextual Web a gran escala, los inicios de Google

Hoy traigo un documento que es una auténtica joya para diferentes y variados ámbitos del conocimiento de la informática.

Y no es otro que el documento de presentación del prototipo de Google, por Sergey Brin y Lawrence Page, en donde describen al detalle el modelo y arquitectura; utilizando “solamente” 24 millones de páginas para obtener resultados.

Un documento para leer con calma

Varios detalles me han llamado la atención, como es la claridad de ideas que muestran al declarar como uno de sus objetivos el que sea un sistema orientado a ser utilizado por usuarios noveles en realizar búsquedas en la Web.

La definición completa del famoso PageRank, sin tan siquiera ser posible que se imaginaran la importancia y revolución que iba a producir en el futuro del mercado publicitario sobre la Web, y que resumen en la siguiente línea:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

La primera descripción de lo que en el futuro será una base de datos NoSQL, ya que una base de datos relacional no era necesaria en la sencilla trama con la que se almacenaba el HTML completo de una Web.

Los procesos de “crawling” o captura de Webs, realizados en python, y que era capaz (en ese entonces) de capturar 100 páginas por segundo, utilizando cuatro hilos simultáneos. Y en donde el punto más debil, las llamadas de DNS lookup, fueron resueltos cacheando dichas DNS para cada uno de los procesos.

Por último, curioso que la siguiente meta de aquellos inicios del revolucionario buscador era el conseguir indexar y tratar 100 millones de páginas... quien les iba a decir las miles de millones – de sitios web y de dólares americanos que maneja actualmente.

Vía | Julián Estevez Más información | The Anatomy of a Large-Scale Hypertextual Web Search Engine

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta