Google indexa documentos escaneados

Sacha Fuentes 31 de octubre de 2008 3 comentarios

El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su buscador soporte para cada vez más tipos de ficheros. Ya hace mucho tiempo que permiten las búsquedas dentro de PDF, siempre que estos contuvieran texto.

El problema estaba en documentos PDF con imágenes, algo que han solucionado mediante el uso de un OCR para convertir imágenes en texto. De este modo, también son capaces de buscar dentro de documentos escaneados que, de otro modo, no podían ser indexados.

Esta era información que, aunque accesible, no podía ser interpretada de manera automática por un ordenador, por tanto no había manera de ofrecerla en los resultados. Es por ello que Google andaba detrás del proyecto OCRopus y aquí se ven los primeros resultados.

En un futuro (y aquí estoy teorizando) podrían utilizarse técnicas similares para mejorar los resultados de Google Images que, de momento, dependen del contexto de la página donde están situadas las imágenes. Ciertamente, es mucho más complicado que hacerlo con documentos escaneados, pero la calidad de los resultados mejoraría muchísimo.

Por cierto, podemos ver un ejemplo de indexación de este tipo de documentos en el primer resultado de esta búsqueda.

Más información | Google.

2 votos
¿Recomendarías este post?

Comentarios

Deja tu comentario
  • 1 Avatar

    Muy buena estrategia la de google, si que le vamos a sacar probecho!!….

  • 2 Avatar

    el objetivo de google es ganar dinero =)

Escribir un comentario

Nos encantaría conocer tu opinión. Por favor, procura que tus comentarios estén relacionados con esta entrada. Intenta también no insultar ni usar palabrotas, respeta a los demás lectores de este blog. Los comentarios off-topic, burdamente promocionales, ofensivos o ilegales serán borrados sin piedad.

Puedes usar algo de HTML:

<a href>, <strong>, <blockquote>, <br />, <p>, <em>, <ul>, <li>. Los párrafos y los retornos de línea también se incluyen automáticamente.

Vista previa del comentario

OpenID

Este blog utiliza OpenID para la identificación de usuarios. OpenID es un sistema que te permite, con un sólo registro, identificarte en todos aquellas webs que lo soporten. Para la identificación se utiliza la url proporcionada por el servidor OpenID cuando te registras en él o la url de tu blog si lo has reclamado.

Si deseas una cuenta OpenID, puedes registrarte en el servidor OpenID de WeblogsSL.

Ejemplos de OpenID

  • Openid.blogs.es: http://openid.blogs.es/usuario o usuario
  • myOpenID: http://usuario.myopenid.com/

Destacado

Lo mejor del 2008 Especial Firefox 3

Suscríbete