16 febrero 2010

Cómo Convertir Un PDF o un TIF en Texto

Ghostscript es una utilidad que convierte documentos PDF a TIF.

Instalación de Ghostcript

sudo aptitude install -y ghostscript

Conversión de PDF a TIF

Ghostscript tiene la utilidad gs que es la que usaremos para convertir el PDF a TIF
gs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=NombrePDF.tif NombrePDF.pdf

Instalación del OCR Tesseract con paquete español e inglés

sudo aptitude install -y tesseract-ocr tesseract-ocr-spa tesseract-ocr-en

Extracción del texto incluido en las imágenes TIF

Documento en español:
tesseract NombrePDF.tif NombrePDF.txt -l spa

Documento en inglés:
tesseract NombrePDF.tif NombrePDF.txt -l en

No hay comentarios:

Publicar un comentario