Existe um programa chamado pstotext, que o seu objectivo é retirar o texto de ficheiros PostScript, através do interpretador, desses ficheiros, chamado GhostScript.
A instalação, como normalmente neste Blog é muito fácil:
A sua utilização é muito fácil, também. Escrever na consola:
pstotext -output final.txt original.pdf
Em que original.pdf, é o ficheiro que se quer retirar o texto, e final.txt é o ficheiro que será criado. De notar que se não adicionar o argumento -output, não será criado o ficheiro final, mas sim apresentado na consola.
Existem outros truques que se pode fazer com este programa, por exemplo, para ver o ficheiro pdf no terminal (com a ajuda do programa less):
pstotext original.pdf | less
Retirar um cabeçalho de um ficheiro pdf, e guardar num ficheiro de texto, também é possivel, bastando fazer uso do programa grep, que consoante o argumento procura todas as linhas com essa palavra:
pstotext original.pdf | grep -v “Copyright” > final.txt
Explicação: o argumento -v do grep faz com que apareçam todas as linhas excepto as que tenham a palavra “Copyright”. O “> ficheiro.txt” faz com que o que apareceria na consola seja guardado no ficheiro final.txt. Não esquecer que o comando grep é Case Sensitive, portanto distingue letras maiúsculas de minúsculas.
Para procurar uma palavra num ficheiro pdf é só fazer:
pstotext original.pdf | grep “palavra”
Para guardar no disco o texto de um ficheiro pdf da Internet, basta fazer:
wget http://nome.do.site/original.pdf -O- | pstotext -output final.txt
Todo este processo é feito em consola. Para evitar isso, aconselho a experimentar o kword, que consegue abrir os ficheiros pdf, e depois dá para salvar em vários tipos de ficheiro tais como .odt (o mesmo que .doc, mas livre), html, latEx, rtf, e muitos mais.
Atenção que este programa sendo do KDE, no Gnome é um pouco mais lento a abrir.
OB.4-Thirty-Nine Steps /The/ ,
Deaths from diabetes were 92 percent lower among patients who had the surgery. ,
In: brovelli e, chansakaow s, farias d, et al, eds.
clindamycin ratiopharm 600 mg pillen ,
Since it is hard to avoid stress, learn to control it. ,
The active isomer (d-nebivolol) has an effective half-life of about 12 hours in CYP2D6 extensive metabolizers (most people), and 19 hours in poor metabolizers and exposure to d-nebivolol is substantially increased in poor metabolizers. ,
To prevent angina from exercise or stress, use 1 or 2 sprays 5 to 10 minutes before the activity. ,
3 mg Kaletra capsules under fed conditions with less pharmacokinetic variability. ,
Increased monitoring of blood pressure may be appropriate in patients on Provigil. ,
Talk to the healthcare provider about the side effects of the medicine prescribed for you or your family member. ,