Google digitalizará 5 millones de libros al año usando los captchas que desciframos

Google podrá digitalizar cinco millones de libros al año usando ‘ReCaptcha’. El sistema utiliza unos segundos de cada persona, pero el trabajo diario que supone es de un total de 150.000 horas descifrando palabras.

Los captchas son las cajas con dos palabras casi ilegibles que aparecen cuando nos registramos en las páginas web, entre otros muchos usos. Esto es la clave para Google. 

 

En un principio estos captchas no tenían más utilidad que saber si se trataba de una persona o una máquina que quería enviar spam. Ahora, y gracias a Luis von Ahn, uno de sus inventores, valdrá para digitalizar libros y periódicos.

 

El proceso de digitalización es tedioso. Comienza con un escaneo y, posteriormente, se pasa a un proceso de reconocimiento óptico de caracteres (OCR en inglés). 


OCR-Captcha-ReasonWhy.es


¿Qué ocurre en este momento? 

En muchas ocasiones los ordenadores tienen problemas para digitalizar algunas palabras. Es ahí donde los usuarios juegan su papel y transcriben manualmente esos caracteres.

 

Según ReCaptcha se resuelven al día unos 200 millones de captchas en el mundo y el proceso supone sólo 10 segundos. Al cabo del día la suma supone 150.000 horas de trabajo diario que se divide entre todos los usuarios y resulta un proceso más sencillo.


ReCaptcha-ReasonWhy.es


Los captchas se aseguran de que eres humano con dos palabras, una que reconoce el ordenador y otra que no, por lo que ayudas a digitalizar la segunda. 


Actualmente la herramienta se utiliza con números pasados de The New York Times y con libros de Google Books. Con la iniciativa se podrán digitalizar 5 millones de libros al año y disponer de más libros de manera gratuita.