Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht
Navigation: Dokumentationen agorum core > agorum core support tool > Einführung in das agorum core support tool > agorum core ocr engine
Sie können mithilfe der OCR von agorum core den Text / Inhalt eines Dokuments auslesen. Sobald die Textinformationen ausgelesen sind, können Sie im System nach diesen Informationen per Volltextsuche suchen, um Dokumente wiederzufinden.
Hinweise:
Im Standard fügt das System die von der OCR ausgelesenen Textinformationen nicht in die PDFs ein, sondern stellt diese in einem anderen Dateiformat geschützt zur Verfügung. Dieses Dateiformat liegt unsichtbar vor, Sie können nicht darauf zugreifen. Das Erstellen der ausgelesenen Informationen führt nicht zu einer neuen Version des Originaldokuments.
Wenn Sie PDF-Dokumente mit den durch OCR erkannten Texten außerhalb von agorum core in einer anderen Software verwenden wollen, müssen die erkannten Texte in das jeweilige PDF-Dokument geschrieben werden. Dazu müssen Sie bestimmte Einstellungen vornehmen, die in dieser Dokumentation beschrieben sind. Wenn der erkannte Text in das PDF-Dokument geschrieben wird, aktualisiert sich dadurch auch die Version des Dokuments in agorum core.
Tipp: Verwenden Sie die Einstellung auch dann, wenn Sie Text in der Ansicht markieren und herauskopieren möchten.
Hinweis: Das Aktivieren der hier beschriebenen Einstellungen hat nur Auswirkungen auf Dokumente, die ab dem Zeitpunkt der Aktivierung erstellt werden. Alle bisherigen Dokumente bleiben unverändert bestehen.
Laden Sie ein PDF ohne Textinformationen nach agorum core, reicht das System es automatisch an die OCR weiter. Die OCR liest das PDF aus. Sie müssen entscheiden, ob:
Die Einstellung hierzu legen Sie wie folgt in der MetaDB fest.
MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/ocr
Eintrag | Werte |
---|---|
OCRPdfOverwriteExistingFile |
true Überschreibt das Originaldokument. false Erstellt ein neues Dokument. |
OCRPdfSaveAs |
$ {name} Definiert das Namensformat / den Namen, wenn der Eintrag OCRPdfOverwriteExistingFile auf false steht. Beispiel 1 pdf-neu-${name} Beispiel 2 ${name}-neu Hinweise:
|
Damit das System die Textinformationen mit den PDFs verknüpft, müssen Sie einen neuen Wert in die dazugehörigen Konverter eintragen.
MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/convertimage2txt/<Windows|Unix> MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/converttif2txt/<Windows|Unix> MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/convertpdf2txt/<Windows|Unix>
Hinweis: Ob Sie den Pfad Windows oder Unix sehen, hängt davon ab, auf welchem Betriebssystem die OCR installiert wurde. Als Cloud-Kunde sehen Sie Unix, als On-Premises-Kunden dagegen Windows. Durch die Installation der OCR legt das System Windows oder Unix automatisch an.
Achtung: Datenverlust erstellter Konfigurationen für die Konvertierung durch Installation der OCR-Engine. Sofern Sie eigene Konfigurationen für die Konvertierung angelegt haben, werden diese bei Installation der OCR-Engine überschrieben. Sichern Sie daher Ihre erstellten Konfigurationen als MetaDB-Export und spielen Sie diese nach einem Update der OCR-Engine wieder ein. Verwenden Sie dazu ein eigenes Konfigurationsprojekt, in dessen export.yml alle individuellen MetaDB-Schlüssel exportiert werden.
Im Anschluss können Sie ein PDF ohne Textinformationen nach agorum core laden, um es zu testen. Sie können hierzu folgendes PDF als Beispiel verwenden:
Nachdem die OCR erfolgreich durchgelaufen ist, laden Sie das PDF herunter. Sie können das PDF nun auch außerhalb von agorum core durchsuchen.
Zudem können Sie jetzt auch in der Registerkarte Ansicht in agorum core den Text im PDF markieren.
Sie können zusätzlich Lesezeichen im PDF aktivieren. Die Aktivierung nehmen Sie in den Konvertern vor. Die OCR prüft das Dokument auf Überschriften und setzt pro Überschrift ein Lesezeichen.
Hinweis: Mit false können Sie die Lesezeichen im PDF wieder deaktivieren.
Der Adobe Reader etwa stellt Lesezeichen auf der linken Seite dar. Im Beispiel unten wurde das Lesezeichen Dokumentenmanagement gesetzt. Klicken Sie das Lesezeichen an, springt der Adobe Reader automatisch an die Stelle im Text, an der Sie das Lesezeichen gesetzt haben.
Die Erstellung eines durchsuchbaren PDFs durch die OCR-Verarbeitung kann einige Zeit beanspruchen. Während der OCR-Verarbeitung ist das vorhandene PDF-Dokument nicht automatisch gesperrt.
Wenn Sie verhindern wollen, dass PDF-Dokumente von Benutzern oder anderen Prozessen bearbeitet werden und diese Änderungen im schlimmsten Fall verloren gehen, weil PDF-Dokumente nach der OCR-Verarbeitung durch das durchsuchbare Dokumente ersetzt werden, müssen Sie die PDFs während der OCR-Verarbeitung sperren:
/MAIN_MODULE_MANAGEMENT/documentservice/control/LockWhileReplacing