beA: Dokumente als durchsuchbare PDF mit geringer Dateigröße erstellen

Ab 1. 1. 2018 müssen alle Rechtsanwälte über das besondere elektronische Anwaltspostfach (beA) empfangsbereit sein. Ab diesem Zeitpunkt können Anwälte auch mit der beA-Basiskarte respektive ohne Signatur versenden.

Dokumente müssen, soweit technisch möglich, durchsuchbar sein. Dabei ist die Dateigröße zu versendender Anlagen auf derzeit 30 MB begrenzt. Ich zeige auf, wie gescannte Dokumente unter Linux als durchsuchbare .pdf-Dateien mit geringer Dateigröße noch gut lesbar erstellt werden können.
Dabei nutzen wir gscan2pdf, Tesseract, Gimp, xsane und PDF-Shuffler. Diese Programme sind unter Debian 9 über die Paketverwaltung zu beziehen.

1. Möglichkeit: gscan2pdf mit Tesseract

Wir weisen gscan2pdf an, Tesseract als OCR (Texterkennung) zu nutzen.

Den Scanmodus stellen wir auf Graustufen, Bittiefe 8 und Scanauflösung 300 (eine geringere Auflösung macht das Dokument unlesbar).

Über den Reiter Texterkennungsausgabe prüfen wir das Dokument auf hinreichend erfolgreiche Texterkennung.

Vor dem Speichern skalieren wir das Dokument auf 100 ppi herunter.

Unser so erstelltes PDF ist nun gut les- und durchsuchbar.

Allerdings liegt die Dateigröße hier bei rund 630 kB.

2. Möglichkeit: gscan2pdf, Tesseract mit Gimp und xsane

Wir scannen das Dokument mit Gimp und xsane. Das Bild exportieren wir als .jpg-Datei in der Qualitätsstufe 20.

Dann öffnen wir die Datei mit gscan2pdf und lassen mit Werkzeuge -> Texterkennung den Text erkennen.

Im Anschluss wird die Datei als .pdf gepeichert. Die Dateigröße reduziert sich über diese Prozedur auf etwa 150 kB, wobei weder die Leserlichkeit noch die Durchsuchbarkeit leiden.

Aus mehreren Dateien erstellen wir nun abschließend mit dem sich selbst erklärenden PDF-Shuffler eine einzige.

Weitere Funktionen des Programmes g2scan werden bei ubuntuusers dargestellt.

11 comments on beA: Dokumente als durchsuchbare PDF mit geringer Dateigröße erstellen

  1. PDF unterstützt CCITT-Group-4-Faxkompression für 1-Bit-Rastergrafiken. Das funktioniert also nur für monochrome Bilddateien und es ist abzuwägen, ob sich das für ein Dokument anbietet, wenn Text und Grafikelemente in Schwarzweiß ohne Antialiasing digitalisiert werden. Der Vorteil ist aber, dass man so auch Scans mit Druckauflösung (300 dpi oder mehr) archivieren kann, die bei Bedarf trotzdem noch ein gutes Druckbild haben und ebenfalls eine sehr kleine Dateigröße aufweisen. Alternative kann man mit FlateDecode auch eine Kompressionsmethode verwenden, die auch für (g)zip und PNG eingesetzt wird. Das funktioniert effektiv sehr gut mit großen Farbflächen wie bspw. einem rein weißen Dokumentenhintergrund. Beide Methoden sind auch konform mit PDF/A-1.

    Ich habe die Erfahrung gemacht, dass man bei der Digitalisierung von Textdokumenten besser einen Bogen um das JPEG-Format bzw. die DCTDecode-Kompression von PDF (was der JPEG-Kompression entspricht) macht. Statt auf Verlust bei der Komprimierung zu setzen, kann man die Scans besser so nachbearbeiten, dass man mit einem Gleichgewicht aus Auflösung, Farbreduktion und Lesbarkeit die Vorteilen anderer Rastergrafikformate bzw. deren Kompressionsmethoden ausnutzt, um ein gutes Endprodukt zu erreichen.

    Das nur mal als Anregung =)

    Schade ist übrigens, dass sich DjVu als Alternative zu PDF nie durchgesetzt hat. Das ist für diesen Anwendungsfall entwickelt worden und erzielt deswegen einfach auch bessere Ergebnisse.

    1. Statt auf Verlust bei der Komprimierung zu setzen, kann man die Scans besser so nachbearbeiten, dass man mit einem Gleichgewicht aus Auflösung, Farbreduktion und Lesbarkeit die Vorteile anderer Rastergrafikformate bzw. deren Kompressionsmethoden ausnutzt, um ein gutes Endprodukt zu erreichen.

      Was würdest Du konkret vorschlagen? Welches Format würdest Du wie nutzen?

      Obwohl es hier nicht so sehr um ein optimales PDF geht, wie es wohl ein Mediengestalter erstellen würde, als vielmehr um ein auch von einem alten, noch mit 20 % Sehfähigkeit versehenen, zerknitterten Richter gut lesbares und zugleich durchsuchbares, möglichst kleines Dokument.

      1. Nein, auch mir geht es nicht um ein PDF, wie es Mediengestalter für Druckvorstufe oder als E-Book erstellen würden. Dabei würden Text und Grafikelemente soweit möglich auch als Vektorgrafiken vorliegen und Rastergrafiken sind dann eher Bilder im ursprünglichen Sinne – also bswp. digitale Fotos oder Illustrationen. JPEG wäre dann auch das Mittel der Wahl als Grafikformat für die Quelldateien ebenso wie für die Kompression der Rastergrafiken in der PDF. Das Format wurde für solche Rastergrafiken mit hoher Farbtiefe (also vielen unterschiedlichen Farben) schließlich entwickelt.

        Bei einem Textdokument hat man solche Farbtiefen aber nur, wenn man die tatsächlich in Farbe scannt bzw. scannen muss. Mit 8-Bit Graustufen sind das dann nur noch 256 Farben und auch das macht sich bei der Größe einer JPEG-Datei schon deutlich bemerkbar. Aber selbst wenn man für den Text noch etwas Kantenglättung bewahren möchte und nicht ganz auf 1-Bit S/W reduzieren möchte/kann, dann braucht man dafür keine 256 Abstufungen. Die 16 Farben einer indizierten 4-Bit-Palette reichen völlig. Und ab hier wird es dann interessant, weil mit so wenigen Farben ist JPEG nicht mehr so effektiv wie bspw. PNG. Im Vergleich _kann_ PNG mit Kompressionsstufe 9 dann nämlich eine kleinere Dateigröße und bessere Qualität als JPEG mit Qualität 20% aufweisen. Folglich ist dann auch die Kompressionsmethode FlateDecode für Rastergrafiken in einer PDF sinnvoller als DCTDecode.

        Zum Test kannst du dir einfach mal ein Textdokument A4 mit 300 dpi und 8-Bit Graustufen scannen und in GIMP wie folgt nachbearbeiten:

        Mit dem Farbwerkzeug „Werte“ wählt man über die Pipetten aus, was im Bild Weiß (möglichst dunkler Pixel im Dokumentenhintergrund) und was Schwarz (Pixel im Text) sein soll. Anschließend justiert man mit „Helligkeit / Kontrast“ noch den Kontrast nach, damit man eine fast schwarzweißes Grafik hat und noch etwas Kantenglättung um die Schrift bleibt. Umso weniger versprengte Pixel um so besser – kann man auch einfach mit Weiß hier und da übermalen. Danach ändert man den „Modus“ von „Graustufen“ auf „Indiziert“ und erzeugt eine optimale Palette mit 16 Farben. Die Datei speichern als JPEG (Qualität 20%), PNG (Kompressionsstufe 9) und TIF (Kompression Deflate).
        Anschließend den „Modus“ wieder auf „Graustufen“ setzen und das Bild nochmal als JPEG (Qualität 20%) in eine neue Datei speichern. Die sollte besser in der Dateigröße abschneiden, weil JPEG nicht gut mit indizierten Paletten kann.
        Und zum Abschluss kannst du die Grafik nochmal mit „Modus“ „Indiziert“ und „Schwarz/Weiß-Palette (1-Bit) verwenden“ in Monochrom umwandeln und in alle Formate zum Vergleich speichern – nur für TIF dann die Kompression „CCITT-Gruppe-4-Fax“ verwenden.

        Und wem das mit den Kompressionsmethoden zu viel Theorie ist, dem kann ich ans Herz legen, dass die oben beschriebene Bildbearbeitung allein bereits massiv die Dateigröße reduzieren kann – zumindest für diesen Anwendungsfall.

        Um die Kompremierung in der PDF festzulegen bzw. nachträglich zu ändern, ist man allerdings auf Ghostscript und folglich die Befehlszeile angewiesen – oder irgendwelche dubiosen Online-Dienste, denen man gerne seine Anwaltsdokumte anvertraut ;-)

        Kommentarspalten eigenen sich leider schlecht um sich im Detail über solche Themen auszutauschen, deswegen entschuldige bitte den langen ggf. etwas unstrukturierten Text.

        1. Eine super Anleitung, die ich sicherlich künftig gerne umsetzen werde. Am Wochenende werde ich sie schon mal vorab ausprobieren.
          Hier muss nichts entschuldigt werden. Ich bin immer dankbar für derartige Kompetenz.

        2. Im Vergleich kann PNG mit Kompressionsstufe 9 dann nämlich eine kleinere Dateigröße und bessere Qualität als JPEG mit Qualität 20% aufweisen.

          Stimmt. Habe es gerade ausprobiert.

          1. Die „Anleitung“ diente mehr zur Verdeutlichung wie sich die Reduktion der Farbtiefe auf die Dateigröße auswirkt. Wenn ich jetzt regelmäßig solche Dokumenten digitalisieren müsste, dann würde ich auf die manuelle Bildbearbeitung ganz verzichten und mir das ähnlich einrichten, wie der tuxflo – alles möglichst automatisiert. Viel falsch machen kann man gerade mit Ausdrucken im Vergleich zu historischen Dokumenten nicht.

            Da OCR eigentlich flächendeckend auf monochrome Rastergrafiken angewendet wird, kann man Graustufenscans einfach mit einem Schwellwert bearbeiten, was gscan2pdf ebenso wie ORCmyPDF unterstützen oder direkt monochrom scannen (was je nach Scanner besser oder schlechter funktioniert). Als Alternative kann ich das Befehlszeilenwerkzeug optimize2bw (ExactImage) empfehlen, dass sehr gute Ergebniss bei der Binarisierung liefert.
            Wenn man sich beim Scannen etwas Mühe gegeben hat das Papier gerade aufzulegen und die Ausdrucke nicht schief aus dem Drucker gekommen oder sehr zerknickt sind, dann reicht eine rudimentäre, automatische Nachbearbeitung mit unpaper (das von gscan2pdf und OCRmyPDF direkt angesprochen werden kann).

            Da das alles schon auf der Befehlszeile stattfindet würde ich auch die Scans gleich mit scanimage als TIFF der Netpbm anfertigen, bevor die dann mit Stapelverarbeitung durch ExactImage gejagt, mit den formateigenen Werkzeugen (libtiff-tools oder netpbm) in eine mehrseitige Datei zusammengefasst und schließlich mit OCRmyPDF als PDF/A-2b versandfertig eingetütet werden – je A4-Seite bei 300 dpi um die 100 KB Dateigröße.

            Auch das nur nochmal als Anregung.

  2. Ich verwende das Tool OCRmyPdf um aus „normalen“ eingescannten PDFs durchsuchbare Versionen zu erstellen. Der Vorteil: ich kann bequem vom Scanner einfach auf ein dort konfiguriertes Netzlaufwerk scannen und der Rest passiert automatisch.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.