Google indexa documentos escaneados

El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su buscador soporte para cada vez más tipos de ficheros. Ya hace mucho tiempo que permiten las búsquedas dentro de PDF, siempre que estos contuvieran texto.
El problema estaba en documentos PDF con imágenes, algo que han solucionado mediante el uso de un OCR para convertir imágenes en texto. De este modo, también son capaces de buscar dentro de documentos escaneados que, de otro modo, no podían ser indexados.
Esta era información que, aunque accesible, no podía ser interpretada de manera automática por un ordenador, por tanto no había manera de ofrecerla en los resultados. Es por ello que Google andaba detrás del proyecto OCRopus y aquí se ven los primeros resultados.
En un futuro (y aquí estoy teorizando) podrían utilizarse técnicas similares para mejorar los resultados de Google Images que, de momento, dependen del contexto de la página donde están situadas las imágenes. Ciertamente, es mucho más complicado que hacerlo con documentos escaneados, pero la calidad de los resultados mejoraría muchísimo.
Por cierto, podemos ver un ejemplo de indexación de este tipo de documentos en el primer resultado de esta búsqueda.
Más información | Google.
Comentarios
Trackbacks
-
1
Incubaweb #content_54971{ display:block; } Google indexa documentos escaneados 2008-10-31 09:00:05 En Genbeta - El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su31 oct 2008 17:17
WSL Weblogs SL
Tecnología
Entretenimiento
Motor y deportes
Por temas
- Ahorro
- Apple
- Bebés
- Belleza
- Ciencia
- Cine
- Cocina
- Competición
- Consumo
- Cultura Alternativa
- Decoración
- Deportes
- Economía
- Empresas
- Empresas TIC
- Fútbol
- Famosos
- Fans
- Fotografía
- Gadgets
- Gays
- Golf
- Literatura
- Lujo
- Móviles
- Música
- Moda
- Moda hombres
- Motor
- Motos
- Niños
- Noche
- Software
- Televisión
- Viajes
- Vida Sana
- Videojuegos
Top 10
Lo+leido
- Microsoft te anima a usar Internet Explorer 8 en "modo porno"
- El precio de Windows 7
- VideoSpin 2.0, editor de vídeo gratuito
- Consigue el Menú Clásico de Inicio en Windows 7
- Firefox 3.5 versión final ya disponible
- Sesión de Freetos a la parrilla
- Imagen de la semana: Clever Windows, una nueva idea para GNOME 3.0
- Liberado VirtualBox 3.0 final
- GMX.es, GMX entra en España
- ¿Qué hay de nuevo en HTML5?
Lo+votado
- Screenlets, los widgets del escritorio GNU/Linux (Screencast)
- Firefox 3.5 versión final ya disponible
- Firefox se prepara para ser multiproceso
- ¿Qué hay de nuevo en HTML5?
- The Internet is a Series of Blogs! (II)
- Imagen de la semana: Habemus nuevo icono de Firefox
- Moovida, el nuevo nombre y diseño de Elisa Media Center (Screencast)
- Gmail ahora permite adjuntar archivos de hasta 25 MB
- Microsoft Security Essentials (Morro) sale bien evaluado en los primeros tests
- Global Gaming Factory X AB compra The Pirate Bay
Lo+comentado
- El precio de Windows 7
- Firefox 3.5 versión final ya disponible
- La beta de Microsoft Security Essentials (Morro) está disponible como descarga limitada
- Liberado VirtualBox 3.0 final
- Imagen de la semana: Habemus nuevo icono de Firefox
- Firefox se prepara para ser multiproceso
- Imagen de la semana: Clever Windows, una nueva idea para GNOME 3.0
- Outlook 2010 seguirá usando un motor de HTML obsoleto
- Microsoft Security Essentials (Morro) sale bien evaluado en los primeros tests
- Microsoft te anima a usar Internet Explorer 8 en "modo porno"




Muy buena estrategia la de google, si que le vamos a sacar probecho!!….
el objetivo de google es ganar dinero =)