Instalación de Ghostcript
sudo aptitude install -y ghostscriptConversión de PDF a TIF
Ghostscript tiene la utilidad gs que es la que usaremos para convertir el PDF a TIFgs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=NombrePDF.tif NombrePDF.pdf
Instalación del OCR Tesseract con paquete español e inglés
sudo aptitude install -y tesseract-ocr tesseract-ocr-spa tesseract-ocr-en
Extracción del texto incluido en las imágenes TIF
Documento en español:tesseract NombrePDF.tif NombrePDF.txt -l spa
Documento en inglés:
tesseract NombrePDF.tif NombrePDF.txt -l en
No hay comentarios:
Publicar un comentario