reCaptcha, reconocimiento de términos de forma distribuida mediante captchas
Día a día, los que navegamos por internet, en muchas ocasiones tendremos que descrifrar los captchas para abrirnos una cuenta en algún servicio o dejar algún comentario en otros. Por otro lado, cuando usamos un escaner mediante OCR, siempre tendremos que revisar las palabras del texto ya que el sistema OCR no es capaz de traducirlo correctamente.
¿Qué tiene que ver una cosa con la otra? Pues muy sencillo, ya que se trata de reCaptcha, un proyecto para la digitalización de libros y documentos escaneados del Internet Archive de la escuela de Ciencias de la computación de la Universidad de Carnegie Mellon que pretende la revisión distribuida de los términos que no ha podido convertir a texto mediante el escaneo con el sistema OCR, por el que se nos ofrece la palabra a descifrar como captcha y otro término para su comprensión.
De esta manera, se pretenden digitalizar los contenidos de los libros a textos, y de manera distribuida mediante captchas los usuarios ayudarán a descifrar los términos que el sistema OCR no ha sido capaz de averiguar, permitiendo validar la fiabilidad de los términos introducidos por los usuarios, y que actualmente reCaptcha está colaborando de esta manera en la digitalización de libros y documentos del Internet Archive.
Actualmente podemos encontrar plugins para WordPress, MediaWiki, phpBB, y PHP.
Vía | Webware
Enlace | Sitio oficial de reCaptcha
Comentarios
Trackbacks
-
1
De entre todos los sistemas de almacenamiento de archivos online, File.io nos propone un servicio diferente, más sencillo si cabe. Simplemente tendremos que crear nuestro propio directorio a través del formulario, establecer una contraseña y,18 dic 2007 19:39
-
2
Y por último, los usuarios que no dispongan de cuenta, deberán, obviamente, crearse las suyas propias. Ellos, a diferencia de nosotros, encontrarán que a partir de ahora, para poder crearse sus cuentas, en el formulario se encontrarán con el27 ago 2007 17:27
-
3
Y por último, los usuarios que no dispongan de cuenta, deberán, obviamente, crearse las suyas propias. Ellos, a diferencia de nosotros, encontrarán que a partir de ahora, para poder crearse sus cuentas, en el formulario se encontrarán con el27 ago 2007 17:15
-
4
Próximamente permitirá a los usuarios realizar sus SlapStrips personalizados, que podrán compartir en los perfiles que dispongan en redes sociales y en otros sitios web. Curioso que en sus formularios incorpore el sistema reCaptcha, del cual l1 jul 2007 11:32
-
5
Próximamente permitirá a los usuarios realizar sus SlapStrips personalizados, que podrán compartir en los perfiles que dispongan en redes sociales y en otros sitios web. Curioso que en sus formularios incorpore el sistema reCaptcha, del cual l30 jun 2007 06:20
-
6
Próximamente permitirá a los usuarios realizar sus SlapStrips personalizados, que podrán compartir en los perfiles que dispongan en redes sociales y en otros sitios web. Curioso que en sus formularios incorpore el sistema reCaptcha, del cual l30 jun 2007 04:06
WSL Weblogs SL
Tecnología
Entretenimiento
Motor y deportes
Por temas
- Ahorro
- Apple
- Bebés
- Belleza
- Ciencia
- Cine
- Cocina
- Competición
- Consumo
- Cultura Alternativa
- Decoración
- Deportes
- Economía
- Empresas
- Empresas TIC
- Fútbol
- Famosos
- Fans
- Fotografía
- Gadgets
- Gays
- Golf
- Literatura
- Lujo
- Móviles
- Música
- Moda
- Moda hombres
- Motor
- Motos
- Niños
- Noche
- Software
- Televisión
- Viajes
- Vida Sana
- Videojuegos
Top 10
Lo+leido
- El precio de Windows 7
- Internet Explorer 8 es el más mejor navegador del mundo mundial
- Firefox 3.5 versión final ya disponible
- Sesión de Freetos a la parrilla
- Liberado VirtualBox 3.0 final
- ¿Qué hay de nuevo en HTML5?
- GMX.es, GMX entra en España
- Imagen de la semana: Clever Windows, una nueva idea para GNOME 3.0
- Microsoft Security Essentials (Morro) sale bien evaluado en los primeros tests
- Global Gaming Factory X AB compra The Pirate Bay
Lo+votado
- Internet Explorer 8 es el más mejor navegador del mundo mundial
- Screenlets, los widgets del escritorio GNU/Linux (Screencast)
- Firefox se prepara para ser multiproceso
- Firefox 3.5 versión final ya disponible
- ¿Qué hay de nuevo en HTML5?
- The Internet is a Series of Blogs! (II)
- Imagen de la semana: Habemus nuevo icono de Firefox
- Moovida, el nuevo nombre y diseño de Elisa Media Center (Screencast)
- Gmail ahora permite adjuntar archivos de hasta 25 MB
- Microsoft Security Essentials (Morro) sale bien evaluado en los primeros tests
Lo+comentado
- El precio de Windows 7
- Internet Explorer 8 es el más mejor navegador del mundo mundial
- Firefox 3.5 versión final ya disponible
- La beta de Microsoft Security Essentials (Morro) está disponible como descarga limitada
- Liberado VirtualBox 3.0 final
- Imagen de la semana: Habemus nuevo icono de Firefox
- Firefox se prepara para ser multiproceso
- Imagen de la semana: Clever Windows, una nueva idea para GNOME 3.0
- Outlook 2010 seguirá usando un motor de HTML obsoleto
- Microsoft Security Essentials (Morro) sale bien evaluado en los primeros tests




captchas
Sé como funciona un captcha pero no me queda nada claro como se decide que palabras no ha traducido/identificado bien el OCR.
A lo sumo cabe determinar que una palabra generada por el OCR no está en un dicionario, pero aun resultando ser una palabra del diccionario no hay garantia de que sea exactamente la palabra correcta.
Con todo, ya es un avance la resolucion de aquellas palabras sin sentido, pero a fin de cuentas se requiere una lectura y comparacion directa entre la imagen del texto y el texto producido por el OCR.
La forma mas eficiente y comoda de facilitar el trabajo de revision de un OCR consistiria en mostrar como imagen de fondo la imagen de una pagina y sobreimpresionado en primer plano el editor de texto que mostraria entre lineas los renglones del OCR directamente editables por el usuario.
De este modo una simple mirada de conjunto bien podria identificar rapidamente palabras que no concuerdan y eventualmente procederia el reemplazo automatico de todos aquellos errores completamente identicos.