Google indexa documentos escaneados

El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su buscador soporte para cada vez más tipos de ficheros. Ya hace mucho tiempo que permiten las búsquedas dentro de PDF, siempre que estos contuvieran texto.
El problema estaba en documentos PDF con imágenes, algo que han solucionado mediante el uso de un OCR para convertir imágenes en texto. De este modo, también son capaces de buscar dentro de documentos escaneados que, de otro modo, no podían ser indexados.
Esta era información que, aunque accesible, no podía ser interpretada de manera automática por un ordenador, por tanto no había manera de ofrecerla en los resultados. Es por ello que Google andaba detrás del proyecto OCRopus y aquí se ven los primeros resultados.
En un futuro (y aquí estoy teorizando) podrían utilizarse técnicas similares para mejorar los resultados de Google Images que, de momento, dependen del contexto de la página donde están situadas las imágenes. Ciertamente, es mucho más complicado que hacerlo con documentos escaneados, pero la calidad de los resultados mejoraría muchísimo.
Por cierto, podemos ver un ejemplo de indexación de este tipo de documentos en el primer resultado de esta búsqueda.
Más información | Google.
Comentarios
Deja tu comentarioTrackbacks
-
1
Incubaweb #content_54971{ display:block; } Google indexa documentos escaneados 2008-10-31 09:00:05 En Genbeta - El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su31 oct 2008 17:17
Escribir un comentario
Nos encantaría conocer tu opinión. Por favor, procura que tus comentarios estén relacionados con esta entrada. Intenta también no insultar ni usar palabrotas, respeta a los demás lectores de este blog. Los comentarios off-topic, burdamente promocionales, ofensivos o ilegales serán borrados sin piedad.
Puedes usar algo de HTML:
<a href>, <strong>, <blockquote>, <br />, <p>, <em>, <ul>, <li>. Los párrafos y los retornos de línea también se incluyen automáticamente.
- Suscríbete via feed RSS a los comentarios de este post
Este blog utiliza OpenID para la identificación de usuarios. OpenID es un sistema que te permite, con un sólo registro, identificarte en todos aquellas webs que lo soporten. Para la identificación se utiliza la url proporcionada por el servidor OpenID cuando te registras en él o la url de tu blog si lo has reclamado.
Si deseas una cuenta OpenID, puedes registrarte en el servidor OpenID de WeblogsSL.
Ejemplos de OpenID
- Openid.blogs.es: http://openid.blogs.es/usuario o usuario
- myOpenID: http://usuario.myopenid.com/
WSL Weblogs SL
Tecnología
Entretenimiento
Motor y deportes
Por temas
- Ahorro
- Apple
- Bebés
- Belleza
- Ciencia
- Cine
- Cocina
- Competición
- Consumo
- Cuidados masculinos
- Cultura Alternativa
- Decoración
- Deportes
- Economía
- Empresas
- Empresas TIC
- Fútbol
- Famosos
- Fans
- Fotografía
- Gadgets
- Gays
- Golf
- Literatura
- Lujo
- Móviles
- Música
- Moda
- Motor
- Motos
- Noche
- Software
- Televisión
- Viajes
- Vida Sana
- Videojuegos
Top 10
Lo+leido
- Windows Live Essentials ya se puede descargar
- Carpetas inteligentes en Windows Vista
- DivX 7 para Windows, compatible con MKV
- La Superbarra de Windows 7 (Screencast)
- Windows Seven mutila los MP3
- La muerte del email está cerca
- Vota Mi Cuerpo!, un ejemplo de red social bien entendida [Inocentada 2008]
- Internet Explorer sigue perdiendo cuota, es usado por menos del 70% de los usuarios
- iLife '09, nueva versión de la suite
- Free Extended Task Manager, el administrador de tareas definitivo
Lo+votado
- La Superbarra de Windows 7 (Screencast)
- La muerte del email está más lejos que nunca
- Genbeta actualiza el perfil de usuario y centra su diseño
- Carpetas inteligentes en Windows Vista
- Picasa para Mac
- 8 excelentes add-ons para Songbird
- Vota Mi Cuerpo!, un ejemplo de red social bien entendida [Inocentada 2008]
- Imagen de la Semana: Chrome ruega por su vida
- Vertor, torrents verificados
- Youtube Buffer Video, reproduce sin pausas
Lo+comentado
- Windows 7: descarga beta pública
- La muerte del email está cerca
- La Superbarra de Windows 7 (Screencast)
- Internet Explorer sigue perdiendo cuota, es usado por menos del 70% de los usuarios
- Windows Seven mutila los MP3
- La muerte del email está más lejos que nunca
- Genbeta actualiza el perfil de usuario y centra su diseño
- Firetorrent, convierte Firefox en tu cliente de bittorrent
- Descarga Windows 7 Beta, si puedes
- Vota Mi Cuerpo!, un ejemplo de red social bien entendida [Inocentada 2008]




Muy buena estrategia la de google, si que le vamos a sacar probecho!!….
el objetivo de google es ganar dinero =)