El uso pdftotext es una utilidad para convertir el Formato de Documento Portátil (PDF) a archivos de texto sin formato. Se lee el archivo PDF, y escribe un archivo de texto. Si archivo de texto no se especifica, se convierte pdftotext file.pdf a archivo.txt. Si el texto es-file -, el texto se envía a stdout.
Instalar pdftotext bajo RedHat / RHEL / Fedora / Linux CentOS
Para instalar pdftotext el cual viene en el paquete poppler-utils en diversas distribuciones de Linux:
# yum install poppler-utils
En Debian / Ubuntu Linux
$ sudo apt-get install poppler-utils
pdftotext sintaxis
pdftotext { PDF-file } { text-file }
¿Cómo puedo convertir un PDF a texto?
Para convertir un archivo pdf llamado hp a manual.pdf-hp-manual.txt, escribimos:
$ pdftotext hp-manual.pdf hp-manual.txt
Para especificar la primera página a convertir, escribimos:
$ pdftotext -f 5 hp-manual.pdf hp-manual.txt
Para especificar la última página a convertir, escribimos:
$ pdftotext -l 5 hp-manual.pdf hp-manual.txt
Para convertir un archivo pdf protegidos y codificados por el propietario (contraseña):
$ pdftotext -opw ‘password’ hp-manual.pdf hp-manual.txt
Para convertir un archivo PDF encriptado y protegido por contraseña de usuario:
$ pdftotext -upw ‘password’ hp-manual.pdf hp-manual.txt
Para establecer el final de la línea de convención a utilizar para el texto de salida. Se puede establecer que en Unix, dos o Mac.
Para UNIX / Linux SO, escriba:
$ pdftotext -eol unix hp-manual.pdf hp-manual.txt