Open Source Dokumentenmanagement
Dokumentation

Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > Übersicht tags


Festgelegte Dokumentbereiche durch die OCR auslesen lassen

Sie kennen bereits den docform Prozess. Dabei werden Dokumente in einem aktiven Ordner abgelegt. Je nachdem, welche Einstellung dieser Aktiver Ordner hat, läuft das Dokument zuerst in den OCR,  oder, wenn Textinformationen bereits vorhanden sind, direkt nach docform.

Dort liest das System anhand Ihres festgelegten Trainings Werte aus. Diese werden als Metadaten an dem Dokument hinterlegt und durch einen Fileworkflow aus dem Aktiven Ordner in den finalen Ablageort verschoben.

Im Training selbst können wir die unterschiedlichsten Kniffe anwenden, um unsere Daten auslesen zu lassen. Hierbei lernt man niemals aus. Stattdessen wächst unser Wissen aufgrund der Komplexität und Qualität der Dokumente.

In dieser Dokumentation stellen wir Ihnen einen weitere Kniff vor: das Reprocessing von Dokumentenbereichen durch den OCR.

Beispielszenario


Sie nutzen den Reprocessing-Prozess, wenn Ihr Dokument prinzipiell sich wunderbar auslesen lässt, bis auf ganz wenige auszulesende Werte,

In dem folgenden Screenshot sehen Sie, dass das Rechnungsdatum schwer auszulesen ist, während die anderen Werte gut aussehen.

 

Und genau diesen Wert/diesen Datumsbereich lassen wir für diese Rechnung durch den OCR laufen.

Denn folgendes Prinzip greift nun: der OCR kann besser kleine Textbereiche auslesen und sich dahingehend orientieren, als bei ganzen Seiten.

Wieso? Nehmen Sie einfach mal an Ihr Handy in die Hand und machen Sie zwei Fotos von einem Blatt Papier. Dabei zoomen Sie einmal auf einen kleinen Bereich, und nehmen für das zweite Bild die komplette Seite auf. Im Vergleich wird deutlich, dass die komplette Seite nicht so perfekt aussieht, wie der kleine Dokumentausschnitt. Warum ist das so? Die Kamera setzt automatisch bestimmte Einstellungen fest, um einen Bildbereich zu schärfen und zu verstehen. Dabei greift diese eine Einstellung nicht für alle Bereiche des Dokumentes. Die eine Dokumenthälfte ist z. B. etwas dunkler belichtet als die andere. Auch Papierknicke, Krümel, oder eine hellere / ausgebleichtere Schriftfarbe können Gründe dafür sein, dass unser Dokument nicht perfekt abfotografiert werden kann. Da die gesetzten Einstellungen der Kamera für diese "Sonderfälle" nicht perfekt sind.

Ähnlich ist es für den OCR. Dieser versucht den Text des gesamten Dokumentes zu identifizieren und wählt hierzu allgemeine Werte aus. Aus diesem Grund besteht die Möglichkeit nur bestimmte Textausschnitte an den OCR weiterzureichen.

Umsetzung im Training


Achtung: Einbrüche in der Performance durch Setzen der nachfrolgend beschriebenen OCR-Einstellung Verarbeiten als möglich. Die Einstellung geht zulasten der Performance, wodurch das System verlangsamt werden kann. Setzen Sie die Einstellung keinesfalls provisorisch für viele oder gar alle Elemente in Ihrem Training. Verwenden Sie diese Option nur in Ausnahmefällen!

Um einen Dokumentausschnitt an den OCR zu senden, markieren Sie ein Textausleseelement. Erkennbar an dem Disketten-/Speichersymbol. In den dort gesetzten Eigenschaften, stellen Sie folgende Option unter Inhalt ein:

Verarbeiten als: OCR
(Im Standard steht hier "Bitte wählen")
 

Nun wird dieser Auslesebereich an die OCR-Engine übergeben. Diese führt den Erkennungsprozess aus und gibt das Ergebnis wieder an agorum core zurück, wo es bearbeitet wird.

Verarbeiten als Barcode oder Handschrift

Auch die beiden Einstellungen, Barcode oder Handschrift, führen zu demselben Resultat. Der ausgewählte Textbereich wird zurück an den OCR versendet. Allerdings mit bedacht einen Barcode oder einen handschriftlichen Text besser zu erkennen.

Handelt es sich, wie in unserem Beispiel, um einen normalen digital erstellen Text, nutzen Sie die Einstellung OCR.

 

Durch die Option "Bitte wählen" stellen Sie den Standard wieder ein. Das bedeutet, der ausgewählte Text des Speicherelements wird nicht zurück an den OCR weitergeleitet.

Dokumentbereiche durch den OCR Tuner optimieren


Stellen Sie fest, dass Ihr Wert dennoch nicht vom OCR gegriffen werden kann, bietet Ihnen der OCR -Tuner eine gute Möglichkeit, dieses Problem zu lösen. Durch diesen können Sie passende OCR Einstellungen finden, die diesen Textbereich erkenntlich machen.

Näheres erfahren Sie in folgender Dokumentation: agorum core ocr tuner Dokumentation

Wenn nicht nur ein Element, sondern mehrere betroffen sind, sollten Sie grundsätzlich prüfen, ob Sie die betroffenen Dokumente in einen extra Aktiven Ordner ablegen, der mit vorgenommenen OCR-Einstellungen das komplette Dokument überarbeitet:  agorum core ocr tuner Dokumentation