Durchsuchbares PDF durch OCR erstellen

Sie können mithilfe der OCR von agorum core den Text / Inhalt eines Dokuments auslesen. Sobald die Textinformationen ausgelesen sind, können Sie im System nach diesen Informationen per Volltextsuche suchen, um Dokumente wiederzufinden.

Hinweise:

Sie können die PDF-Dokumente während der OCR-Verarbeitung für die Verarbeitung sperren. Entwickler können den Dokumentstatus mit dem Selektor locked prüfen.
Es wird eine neue Historie angelegt, wenn OCR-Textinformationen in PDF eingefügt werden (also ein durchsuchbares PDF erstellt wird).

Im Standard fügt das System die von der OCR ausgelesenen Textinformationen nicht in die PDFs ein, sondern stellt diese in einem anderen Dateiformat geschützt zur Verfügung. Dieses Dateiformat liegt unsichtbar vor, Sie können nicht darauf zugreifen. Das Erstellen der ausgelesenen Informationen führt nicht zu einer neuen Version des Originaldokuments.

Wenn Sie PDF-Dokumente mit den durch OCR erkannten Texten außerhalb von agorum core in einer anderen Software verwenden wollen, müssen die erkannten Texte in das jeweilige PDF-Dokument geschrieben werden. Dazu müssen Sie bestimmte Einstellungen vornehmen, die in dieser Dokumentation beschrieben sind. Wenn der erkannte Text in das PDF-Dokument geschrieben wird, aktualisiert sich dadurch auch die Version des Dokuments in agorum core.

Tipp: Verwenden Sie die Einstellung auch dann, wenn Sie Text in der Ansicht markieren und herauskopieren möchten.

Hinweis: Das Aktivieren der hier beschriebenen Einstellungen hat nur Auswirkungen auf Dokumente, die ab dem Zeitpunkt der Aktivierung erstellt werden. Alle bisherigen Dokumente bleiben unverändert bestehen.

OCR-Textinformationen in PDF einfügen

Neues PDF erstellen oder Originaldokument überschreiben

Laden Sie eine PDF-Datei ohne Textinformationen nach agorum core, reicht das System die Datei automatisch an die OCR weiter. Die OCR liest die Inhalte der PDF-Datei aus. Sie müssen entscheiden, ob:

ein neues Dokument erzeugt wird
das Originaldokument überschrieben wird

Die Einstellung hierzu legen Sie wie folgt in der MetaDB fest.

Öffnen Sie links in der Seitenleiste Administration und dann MetaDB.

Öffnen Sie den Pfad:

MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/ocr

Passen Sie die Einträge OCRPdfOverwriteExistingFile und OCRPdfSaveAs mit einem Doppelklick an.

Eintrag	Werte
OCRPdfOverwriteExistingFile	true Überschreibt das Originaldokument. false Erstellt ein neues Dokument.
OCRPdfSaveAs	$ {name} Definiert das Namensformat / den Namen, wenn der Eintrag OCRPdfOverwriteExistingFile auf false steht. Beispiel 1 pdf-neu-${name} Beispiel 2 ${name}-neu Hinweise: Steht die Namensergänzung hinter ${name}, müssen Sie die Dateiendung wie in Beispiel 2 angeben. Steht die Namensergänzung wie in Beispiel 1 vor ${name}, müssen Sie keine Dateiendung angeben, da die Endung in ${name} enthalten ist. Lassen Sie ${name} bestehen, überschreibt das System das Originaldokument nicht, sondern erstellt eine Kopie (Scan_Rechnung_20052020.pdf und Scan_Rechnung_20052020 (1).pdf).

Eintrag

Werte

OCRPdfOverwriteExistingFile

true
Überschreibt das Originaldokument.

false
Erstellt ein neues Dokument.

OCRPdfSaveAs

$ {name}
Definiert das Namensformat / den Namen, wenn der Eintrag OCRPdfOverwriteExistingFile auf false steht.

Beispiel 1
pdf-neu-${name}

Beispiel 2
${name}-neu

Hinweise:

Steht die Namensergänzung hinter ${name}, müssen Sie die Dateiendung wie in Beispiel 2 angeben.
Steht die Namensergänzung wie in Beispiel 1 vor ${name}, müssen Sie keine Dateiendung angeben, da die Endung in ${name} enthalten ist.
Lassen Sie ${name} bestehen, überschreibt das System das Originaldokument nicht, sondern erstellt eine Kopie (Scan_Rechnung_20052020.pdf und Scan_Rechnung_20052020 (1).pdf).

Konverter anpassen

Damit das System die Textinformationen mit den PDFs verknüpft, müssen Sie einen neuen Wert in die dazugehörigen Konverter eintragen.

Öffnen Sie links in der Seitenleiste Administration und dann MetaDB.
Öffnen Sie die Pfade:
```
MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/convertimage2txt/<Windows|Unix>
MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/converttif2txt/<Windows|Unix>
MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/convertpdf2txt/<Windows|Unix>
```
Hinweis: Ob Sie den Pfad Windows oder Unix sehen, hängt davon ab, auf welchem Betriebssystem die OCR installiert wurde. Als Cloud-Kunde sehen Sie Unix, als On-Premises-Kunden dagegen Windows. Durch die Installation der OCR legt das System Windows oder Unix automatisch an.
Öffnen Sie das Property-Entry Parameters.
Fügen Sie bei Werte (String-Array) mit folgenden Eintrag hinzu:

In Windows
"--create-pdf-output=True"

In Unix
--create-pdf-output=True
Wiederholen Sie den Schritt für jeden in Schritt 2 aufgelisteten Konverter.

Achtung: Datenverlust erstellter Konfigurationen für die Konvertierung durch Installation der OCR-Engine. Sofern Sie eigene Konfigurationen für die Konvertierung angelegt haben, werden diese bei Installation der OCR-Engine überschrieben. Sichern Sie daher Ihre erstellten Konfigurationen als MetaDB-Export und spielen Sie diese nach einem Update der OCR-Engine wieder ein. Verwenden Sie dazu ein eigenes Konfigurationsprojekt, in dessen export.yml alle individuellen MetaDB-Schlüssel exportiert werden.

Wert für Parameters bei Windows

Wert für Parameters bei Unix

PDF testen

Im Anschluss können Sie eine PDF-Datei ohne Textinformationen nach agorum core laden, um es zu testen. Sie können hierzu folgendes PDF als Beispiel verwenden:

undefined>OCR-Testdokument ohne Textinformationen

Nachdem die OCR erfolgreich durchgelaufen ist, laden Sie das PDF herunter. Sie können das PDF nun auch außerhalb von agorum core durchsuchen.

Zudem können Sie jetzt auch in der Registerkarte Ansicht in agorum core den Text im PDF markieren.

Lesezeichen im PDF aktivieren

Sie können zusätzlich Lesezeichen im PDF aktivieren. Die Aktivierung nehmen Sie in den Konvertern vor. Die OCR prüft das Dokument auf Überschriften und setzt pro Überschrift ein Lesezeichen.

Öffnen Sie die Konverter (siehe Konverter anpassen, Schritt 2).
Fügen Sie pro Konverter mit folgenden Wert hinzu:

In Windows
"--pdf-output-bookmarks=True"

In Unix
--pdf-output-bookmarks=True

Hinweis: Mit false können Sie die Lesezeichen im PDF wieder deaktivieren.

Der Adobe Reader etwa stellt Lesezeichen auf der linken Seite dar. Im Beispiel unten wurde das Lesezeichen Dokumentenmanagement gesetzt. Klicken Sie das Lesezeichen an, springt der Adobe Reader automatisch an die Stelle im Text, an der Sie das Lesezeichen gesetzt haben.

Lesezeichen im PDF

PDF während der OCR-Verarbeitung sperren

Die Erstellung eines durchsuchbaren PDFs durch die OCR-Verarbeitung kann einige Zeit beanspruchen. Während der OCR-Verarbeitung ist das vorhandene PDF-Dokument nicht automatisch gesperrt.

Wenn Sie verhindern wollen, dass PDF-Dokumente von Benutzern oder anderen Prozessen bearbeitet werden und diese Änderungen im schlimmsten Fall verloren gehen, weil PDF-Dokumente nach der OCR-Verarbeitung durch das durchsuchbare Dokumente ersetzt werden, müssen Sie die PDFs während der OCR-Verarbeitung sperren:

Öffnen Sie links in der Seitenleiste Administration.

Öffnen Sie den Pfad:

/MAIN_MODULE_MANAGEMENT/documentservice/control/LockWhileReplacing

Bearbeiten Sie den Eintrag und setzen Sie den Wert auf true.
Speichern Sie die Änderung.