Como converter um arquivo PDF em texto editável usando a linha de comando no Linux

Como converter um arquivo PDF em texto editável usando a linha de comando no Linux
Como converter um arquivo PDF em texto editável usando a linha de comando no Linux

Vídeo: Como converter um arquivo PDF em texto editável usando a linha de comando no Linux

Vídeo: Como converter um arquivo PDF em texto editável usando a linha de comando no Linux
Vídeo: Como Descobrir o Hexadecimal de Qualquer Cor no Mac! - YouTube 2024, Novembro
Anonim
Existem vários motivos pelos quais você pode querer converter um arquivo PDF em texto editável. Talvez você precise revisar um documento antigo e tudo o que você tem é a versão em PDF dele. A conversão de arquivos PDF no Windows é fácil, mas e se você estiver usando o Linux?
Existem vários motivos pelos quais você pode querer converter um arquivo PDF em texto editável. Talvez você precise revisar um documento antigo e tudo o que você tem é a versão em PDF dele. A conversão de arquivos PDF no Windows é fácil, mas e se você estiver usando o Linux?

Não se preocupe. Mostraremos como converter facilmente arquivos PDF em texto editável usando uma ferramenta de linha de comando chamada pdftotext, que faz parte do pacote "poppler-utils". Esta ferramenta já pode estar instalada. Para verificar se o pdftotext está instalado no seu sistema, pressione “Ctrl + Alt + T” para abrir uma janela de terminal. Digite o seguinte comando no prompt e pressione “Enter”.

dpkg –s poppler-utils

Observação: quando dizemos para digitar algo neste artigo e há citações ao redor do texto, não digite aspas, a menos que especifique o contrário.

Se o pdftotext não estiver instalado, digite o seguinte comando no prompt e pressione "Enter".
Se o pdftotext não estiver instalado, digite o seguinte comando no prompt e pressione "Enter".

sudo apt-get install poppler-utils

Digite sua senha quando solicitado e pressione “Enter”.

Existem várias ferramentas disponíveis no pacote poppler-utils para converter PDF em diferentes formatos, manipular arquivos PDF e extrair informações de arquivos.
Existem várias ferramentas disponíveis no pacote poppler-utils para converter PDF em diferentes formatos, manipular arquivos PDF e extrair informações de arquivos.
A seguir, o comando básico para converter um arquivo PDF em um arquivo de texto editável. Pressione "Ctrl + Alt + T" para abrir uma janela do Terminal, digite o comando no prompt e pressione "Enter".
A seguir, o comando básico para converter um arquivo PDF em um arquivo de texto editável. Pressione "Ctrl + Alt + T" para abrir uma janela do Terminal, digite o comando no prompt e pressione "Enter".

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Altere o caminho para cada arquivo para corresponder ao local e nome do arquivo PDF original e onde você deseja salvar o arquivo de texto resultante. Além disso, altere os nomes dos arquivos para corresponder aos nomes dos seus arquivos.

O arquivo de texto é criado e pode ser aberto da mesma forma que você abriria qualquer outro arquivo de texto no Linux.
O arquivo de texto é criado e pode ser aberto da mesma forma que você abriria qualquer outro arquivo de texto no Linux.
Image
Image

O texto convertido pode ter quebras de linha em lugares que você não deseja. Quebras de linha são inseridas após cada linha de texto no arquivo PDF.

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Se você deseja converter apenas um intervalo de páginas em um arquivo PDF, use os sinalizadores “-f” e “-l” (minúscula “L”) para especificar a primeira e a última páginas no intervalo que deseja converter.
Se você deseja converter apenas um intervalo de páginas em um arquivo PDF, use os sinalizadores “-f” e “-l” (minúscula “L”) para especificar a primeira e a última páginas no intervalo que deseja converter.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Para converter um arquivo PDF protegido e criptografado com uma senha de proprietário, use o sinalizador "-opw" (o primeiro caractere no sinalizador é uma letra minúscula "O", não um zero).
Para converter um arquivo PDF protegido e criptografado com uma senha de proprietário, use o sinalizador "-opw" (o primeiro caractere no sinalizador é uma letra minúscula "O", não um zero).

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Altere a "senha" para aquela usada para proteger o arquivo PDF original que está sendo convertido. Certifique-se de que há aspas simples, não duplas, em torno de "senha".

Se o arquivo PDF estiver protegido e criptografado com uma senha de usuário, use o sinalizador "-upw" em vez do sinalizador "-opw". O resto do comando é o mesmo.
Se o arquivo PDF estiver protegido e criptografado com uma senha de usuário, use o sinalizador "-upw" em vez do sinalizador "-opw". O resto do comando é o mesmo.
Você também pode especificar o tipo de caractere de fim de linha aplicado ao texto convertido. Isso é especialmente útil se você planeja acessar o arquivo em um sistema operacional diferente, como Windows ou Mac. Para fazer isso, use o sinalizador "-eol" (o caractere intermediário no sinalizador é uma letra minúscula "O", não um zero) seguido por um espaço eo tipo de caractere de fim de linha que você deseja usar (" unix”,“dos”ou“mac”).
Você também pode especificar o tipo de caractere de fim de linha aplicado ao texto convertido. Isso é especialmente útil se você planeja acessar o arquivo em um sistema operacional diferente, como Windows ou Mac. Para fazer isso, use o sinalizador "-eol" (o caractere intermediário no sinalizador é uma letra minúscula "O", não um zero) seguido por um espaço eo tipo de caractere de fim de linha que você deseja usar (" unix”,“dos”ou“mac”).
OBSERVAÇÃO: se você não especificar um nome de arquivo para o arquivo de texto, o pdftotext usará automaticamente a base do nome do arquivo PDF e adicionará a extensão ".txt". Por exemplo, “file.pdf” será convertido em “file.txt”. Se o arquivo de texto for especificado como “-“, o texto convertido é enviado para stdout, o que significa que o texto é exibido na janela do Terminal e não é salvo em um arquivo.
OBSERVAÇÃO: se você não especificar um nome de arquivo para o arquivo de texto, o pdftotext usará automaticamente a base do nome do arquivo PDF e adicionará a extensão ".txt". Por exemplo, “file.pdf” será convertido em “file.txt”. Se o arquivo de texto for especificado como “-“, o texto convertido é enviado para stdout, o que significa que o texto é exibido na janela do Terminal e não é salvo em um arquivo.

Para fechar a janela do Terminal, clique no botão "X" no canto superior esquerdo.

Para obter mais informações sobre o comando pdftotext, digite "man page pdftotext" no prompt em uma janela do Terminal.

Recomendado: