Extraer texto de imágenes con gscan2pdf

 

 
Nivel: Intermedio
SO: Ubuntu Oneiric Ocelot 11.10 
Tipo de Instalación: Terminal
Tiempo de realización: 1 minuto
 

En este post, veremos cómo instalar gscan2pdf, el cual es un programa que nos permite detectar el texto a partir de una imagen y así ahorrarnos mucho tiempo transcribiendo. Si bien no es perfecto ya que puede confundir algunas letras dependiendo de cómo sea nuestra hoja, si está manchada o no, tipo de letra, etc. es una gran herramienta.

 
Aquí los pasos:
 
1) Ejecutar en terminal el siguientes comando (ver cómo hacerlo):
 
 

(Instalamos tesseract-ocr-spa y gscan2pdf)

sudo apt-get install tesseract-ocr-spa gscan2pdf



Listo! ahora para ejecutar el programa, ingresas el siguientes comando (ver cómo hacerlo):

 
 

(Ejecutamos gscan2pdf)

gscan2pdf

herramienta

Comentarios de Facebook
Se deshabilitaron los comentarios internos debido al exceso de SPAM, si deseas dejar un comentario inicia sesión en facebook y podrás ver la caja de comentarios :)