PDF Dateien in Text umwandeln


Bei meiner Betriebssystemversion war „XPDF“ bereits enthalten, sollte dies nicht der Fall sein. Mit folgenden Befehlen kann schnell nachinstalliert (Debian) werden:

sudo apt-get install update
sudo apt-get install upgrade
sudo apt-get install xpdf

Für meinen Anwendungsfall benutze ich die grafische Benutzeroberfläche. Ich steuere meine Brombeere mithilfe des vorinstallierten RealVNC fern.

Oberfläche Brombeere

Die Datei Übertragung des RealVNC ist schnörkellos und kann mit dem Klick auf das Symbol  gestartet werden. Ich lege alle PDF-Dateien auf dem Desktop meiner Brombeere ab. Vom Desktop aus kopiere ich mir die Dateien in den gewünschten Ordner (in meinem Fall heißt der Ordner: PDF)

Danach geht es in der Konsole weiter…

In der Konsole sind folgende Dinge zu erledigen: Erstens, in den Ordner mit den zu konvertierenden PDF Dateien wechseln. Zweitens, die PDF-Dateien in Text umwandeln. Das realisiere ich mit folgenden zwei Befehlszeilen:

cd PDF
for file in *.pdf; do x=${file%.*}; pdftotext -layout "$file" "$x.txt"; done

Anschließend befinden sich zu jeder PDF eine Textdatei im Ordner. Durch die Option „-layout“ werden die Texte so wie in der PDF abgebildet. Bei Tabellen oder mehreren Textspalten ist diese Funktion sehr hilfreich.

Wer sich mehr zu dem Thema „xpdf“ belesen möchte, kann sich hier die Anleitung für PDFtoTEXT durchlesen: Manual PDFtoText

Ein gutes Bash-Script Tutorial findet ihr hier: Tutorial

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert