Cómo convertir un archivo PDF en un documento de texto en Linux

0
1771

La edición de un archivo PDF requiere convertirlo primero en un documento de texto. ¿Pero cómo haces esto?

A diferencia de un archivo de texto, no puede editar un PDF directamente. Hay varias formas de generar archivos PDF utilizando texto. Pero, ¿qué pasa si quieres ir al revés y convertir archivos PDF en archivos de texto?

Afortunadamente, Linux te permite modificar fácilmente estos archivos desde la terminal. Este artículo demostrará cómo convertir un archivo PDF en un documento de texto en Linux.

Convertir PDF a texto desde la terminal

Poppler es una biblioteca de software utilizada para renderizar y modificar archivos PDF. Contiene una utilidad, conocida como pdftotext , que permite a los usuarios generar archivos de texto a partir de archivos PDF. Dado que  poppler-utils  no es parte de los paquetes estándar de Linux, deberá instalarlo manualmente usando un administrador de paquetes.

En Ubuntu y Debian:

sudo apt install poppler-utils

Para instalar Poppler en Arch Linux:

sudo pacman -S poppler

Es fácil instalar el paquete poppler-utils en CentOS, Fedora y otras distribuciones basadas en RHEL.

sudo dnf install poppler-utils
sudo yum install poppler-utils

Convertir un PDF completo en texto

La sintaxis básica del comando pdftotext es:

pdftotext [options] pdffile textfile

… donde pdffile es la ruta absoluta o relativa al archivo PDF y textfile es el nombre del archivo de salida.

Por ejemplo, para convertir lorem-ipsum.pdf en un archivo de texto:

pdftotext lorem-ipsum.pdf text.txt
entire pdf to a text file

Si el archivo que está convirtiendo tiene marcas de agua o texto sin alinear, puede descartarlos en la salida usando la marca -nodiag .

pdftotext -nodiag lorem-ipsum.pdf random.text

Procesar páginas dentro de un rango específico

Utilice el indicador -f y -l si desea convertir páginas que se encuentran dentro de un rango específico. Por ejemplo, para convertir las páginas uno a cinco en  lorem-ipsum.pdf a texto:

pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

Para convertir solo la primera página del archivo PDF:

pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

Convertir archivos PDF protegidos con contraseña a texto

Pdftotext puede incluso convertir archivos PDF protegidos con contraseña en archivos de texto. Los indicadores -upw y -opw , que representan la contraseña del usuario y la contraseña del propietario respectivamente, se encargan del proceso de autenticación al convertir los archivos PDF.

pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Asegúrese de reemplazar la contraseña con la contraseña del archivo PDF.

También puede combinar varios indicadores para obtener el resultado deseado. Por ejemplo, para convertir las páginas uno a tres de un PDF protegido con contraseña en texto:

pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

Convertir PDF gráficamente a un archivo de texto

Si trabajar con la línea de comandos no es lo tuyo, puedes convertir archivos PDF en archivos de texto usando un software gráfico como Calibre. Es una aplicación de administración de libros electrónicos que puede usar para ver, organizar y modificar archivos PDF  en su sistema.

Calibre está disponible en los repositorios oficiales de distribución de Linux y cualquiera puede descargarlo usando un administrador de paquetes.

Para instalar Calibre en Ubuntu y Debian:

sudo apt install calibre

En Arch Linux:

sudo pacman -S calibre

En distribuciones basadas en RHEL como CentOS y Fedora, puede descargar Calibre usando DNF o Yum.

sudo dnf install calibre
sudo yum install calibre

Cómo usar Calibre para convertir archivos PDF

Una vez instalado, inicie Calibre en su sistema usando el menú de aplicaciones . Alternativamente, puede iniciar Calibre desde la terminal escribiendo:

calibre

Para generar archivos de texto usando PDF con Calibre:

  1. Haga clic en la opción Agregar libros del menú.
    entire pdf to a text file
  2. Busque y seleccione el archivo PDF que desea convertir.
    select pdf file to convert
  3. Resalte el archivo PDF en el panel central y seleccione Convertir libros en el menú.
    convert pdf file to text file calibre
  4. En el menú desplegable Formato de salida , seleccione  TXT .
    select and convert a pdf to
  5. Finalmente, haga clic en Aceptar para continuar.

Calibre ahora comenzará a convertir el archivo PDF especificado en un documento de texto. Puede verificar el estado del proceso haciendo clic en la opción Trabajos , ubicada en la parte inferior derecha de la ventana.

current jobs in calibre

Trabajar con archivos PDF en Linux

Cuando desee compartir un documento con alguien, convertirlo a PDF antes de compartirlo es la forma más eficaz. Antes, los usuarios tenían que instalar un visor de PDF dedicado en su sistema para mostrar archivos PDF, pero ahora, casi todos los navegadores vienen con un visor de PDF incorporado.

Puede encontrar varias aplicaciones que permiten a un usuario ver y editar archivos PDF fácilmente. Muchas instalaciones de Linux se envían con LibreOffice, un paquete de software de oficina, que se puede utilizar como editor de PDF.