Open Source Dokumentenmanagement
Dokumentation

Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core support tool > Einführung in das agorum core support tool > agorum core ocr engine


agorum core ocr tuner verwenden

Über den agorum core ocr tuner nehmen Sie diverse Einstellungen vor, um etwa dem System die Unterscheidung zwischen Hintergrund und Textfarbe auf Dokumenten zu erleichtern und die Qualität der OCR-Erkennung bei regelmäßig eingehenden Dokumenten zu verbessern.

Der agorum core ocr tuner ist Bestandteil der agorum core ocr engine und muss nicht separat installiert werden.

Hinweis: Die agorum core ocr engine wird nur in Verbindung mit einer agorum core pro-Lizenz unterstützt.

Anwendungsfälle


Im Blog Texterkennung verbessern mit dem agorum® core OCR-Tuner finden Sie diverse Anwendungsfälle.

​​​​​Umgang mit dem OCR-Tuner


Um der OCR-Engine mitzuteilen, dass sie den Kontrast erhöhen oder die Engine versuchen soll, vertikale / horizontale Linien zu entfernen, müssen Sie bestimmte Parameter setzen. Bevor Sie diese Parameter setzen, müssen Sie die besten Werte mithilfe des OCR-Tuners ermitteln.

Den OCR-Tuner öffnen

  1. Öffnen Sie im Installationsverzeichnis von agorum core die Datei OCRTuner.exe:
    <Installationsverzeichnis>\agorum core DocumentServer\iDRS\bin\OCRTuner.exe
    

    Ergebnis: Die Oberfläche des OCR-Tuners öffnet sich.

    • In der Oberfläche des OCR-Tuners finden Sie Beispieldokumente, die Probleme verursachen.
    • Verändern Sie OCR-Einstellungen und kopieren Sie die Werte heraus, um Sie in agorum core einzupflegen.
Die Oberfläche des OCR-Tuners


Besondere Menüpunkte und Oberflächen des agorum core ocr tuners

Menüpunkt Beschreibung
export Exportiert die geänderten Parameter in einem Fenster.

Sie können die Parameter markieren und in die Zwischenablage kopieren, um sie etwa in einer Aktiven-Ordner-Konfiguration einzufügen.
run Erzeugt ein neues Bild, um geänderte Parameter zu testen.
OCR - Dropdown - Liste OCR (Standard)
Liest alles aus, was die OCR-Engine erkennen kann.

Barcode
Liest nur Barcodes aus.

Handprint (Free)
Liest nur Handschrift aus.

Handprint (Boxed)
Liest nur die in Boxen eingetragene Handschrift aus.
Feld mit Parametern Listet einstellbare Parameter auf.

Klicken Sie zum Ändern eines Parameters mit der Maus rechts neben einen Parameter.
Unterhalb des Felds mit Parametern Listet Parameter auf, auf dem der Cursor steht.
Unter Auflistung des aktuellen Parameters Gibt den von der OCR-Engine gefundenen Text aus.

Die Position des Textes auf der eingelesenen Seite wird nicht angegeben. 
Rechtes Fenster Stellt eine Seite der aktuellen Datei dar.
  • Die Darstellung dieser Seite entspricht den Parametern, die eingestellt sind.
  • Der Text aus diesem Fenster ist kopierbar.

Mit dem OCR-Tuner arbeiten

  1. Öffnen Sie den OCR-Tuner.
  2. Laden Sie ein Problemdokument hoch (siehe nachfolgendes Video).
  3. Ändern Sie die OCR-Parameter, um ein gut lesbares Dokument zu erzeugen.
  4. Kopieren Sie die veränderten Parameter mitsamt Ihren Werten aus dem OCR-Tuner, um diese in einen Aktiven Ordner in agorum core einzupflegen.

Parameter


Parameter Beschreibung Mögliche Werte
AdaptiveBinarization
Parameter-Name: bitonal-auto 
siehe Spalte Mögliche Werte true
Die Umwandlung geschieht adaptiv für mehrere Bereiche des Dokuments.

false
Die Schwarz/Weiß-Wandlung wird auf das gesamte Dokument gleichförmig angewandt. Über die folgenden Parameter können weitere Einstellungen vorgenommen werden.
BinarizationBrightness
Parameter-Name: bitonal-brightness
Bestimmt die Helligkeit.

Gilt nur, wenn der Parameter AdaptiveBinarization auf true steht.
0 bis 100
BinarizationContrast
Parameter-Name: bitonal-contrast
Bestimmt den Kontrast.

Gilt nur, wenn der Parameter AdaptiveBinarization auf true steht.
0 bis 100
BinarizationSmoothingLevel
Parameter-Name: bitonal-smooth-level
Bestimmt die Glättung ausgefranster Zeichen vor Schwarz-Weiß-Wandlung.

Gilt nur, wenn der Parameter AdaptiveBinarization auf false steht.
0 bis xxxx
BinarizationThreshold
Parameter-Name: bitonal-threshold

Definiert die Binärisierungsschwelle.

Gilt nur, wenn der Parameter AdaptiveBinarization auf false steht.

0 bis 255

0 = Aus
Höherer Wert = schwärzeres Ergebnis
BarcodeTypes
Parameter-Name: barcode-types
Listet verfügbare Barcodetypen auf.

Eine Reduzierung der Typen steigert die Verarbeitungsgeschwindigkeit.

Auswahl durch Entfernung des # Symbols vor dem Typ. Zuvor muss der Standard deaktiviert werden mit #all.

Standard
all = alle Barcodetypen außer Datamatrix
CreatePdfOutput
Parameter-Name: create-pdf-output
siehe Spalte Mögliche Werte

Hinweis: Der Parameter im OCR-Tuner hat keine Auswirkungen, sondern dient nur als Information, um diese beim Export der Parameter angezeigt zu bekommen.

true
Erzeugt eine PDF-Datei mit der Ausgabe.

false (Standard)
Erzeugt keine PDF-Datei mit der Ausgabe.
Deskew
Parameter-Name: deskew
siehe Spalte Mögliche Werte true
Dreht schief eingescannte Dokumente.

false
Dreht keine schief eingescannten Dokumente.
Despeckle
Parameter-Name: despeckle
siehe Spalte Mögliche Werte true
Entfernt Verschmutzungen.

false
Entfernt keine Verschmutzungen.
DespeckleDilate
Parameter-Name: despeckle-dilate
Bestimmt die Streuung der Verschmutzung in Pixel.

Gilt nur, wenn der Parameter DespeckleDilate auf true steht.
0 bis xxxx
DespeckleSize
Parameter-Name: barcode-size
Bestimmt die Größe der Verschmutzung in Pixel.

Gilt nur, wenn der Parameter DespeckleDilate auf true steht.
0 bis xxxx
DetectOrientation
Parameter-Name: detect-orientation
siehe Spalte Mögliche Werte true (Standard)
Aktiviert die Erkennung der Seitenausrichtung.

false
Deaktiviert die Erkennung der Seitenausrichtung.
EngineVersion Bestimmt die Abwärtskompatibilität.

Hinweise:

  • Wenn Sie agorum core mindestens in der Version 9.5.0 neu installiert haben, ist die neue OCR-Engine und der Eintrag --engine-version=2 automatisch enthalten.
  • Sollten Sie die Aktualisierung durchführen, müssen Sie ggf. Ihre Trainings in docform anpassen, da die neue Engine mehr Textstellen erkennt als die alte.
1
Für Abwärtskompatibilitätszwecke gedacht, um Änderungen beim Update der OCR-Engine Version so minimal wie möglich zu halten.

2 (Standard)
Empfohlen bei Neuinstallationen
LimitCharacters Definiert Zeichen, die die OCR-Engine erkennen soll.

Gilt nur für OCR-Dropdown-Liste-Handprint.
0 bis xxxx

Beispiel
1234567890  = nur Zahlen erkennen
PdfOutputBookmarks
Parameter-Name: pdf-output-bookmarks
siehe Spalte Mögliche Werte

Hinweis: Der Parameter im OCR-Tuner hat keine Auswirkungen, sondern dient nur als Information, um diese beim Export der Parameter angezeigt zu bekommen.

true (Standard)
Schreibt Bookmarks beim Erzeugen der PDF-Datei.

false
Schreibt keine Bookmarks beim Erzeugen der PDF-Datei.
Performlineremoval
Parameter-Name: perform-line-removal
siehe Spalte Mögliche Werte

Hinweis: Wenn dieser Parameter aktiviert ist, müssen alle Werte (horizontale und vertikale) belegt werden (!= 0), die dafür notwendig sind. Ansonsten funktioniert das Ausblenden im OCR innerhalb von agorum core nicht, sondern nur im OCR-Tuner.

Beispiel

  • LineRemovalHMax:100
  • LineRemovalHMin:40
  • LineRemovalVMax:100
  • LineRemovalVMin:40
true
Blendet horizontale und vertikale Linien aus.

false
Blendet horizontale und vertikale Linien ein.
LineRemovalHMax
Parameter-Name: lr-horiz-maxthick
Bestimmt die maximale Länge einer auszublendenden horizontalen Linie in Pixel.

Gilt nur, wenn der Parameter Performlineremoval auf true steht.
0 bis xxxx

Empfohlener Wert
100
LineRemovalHMin
Parameter-Name: lr-horiz-minlength
Bestimmt die minimale Länge einer auszublendenden horizontalen Linie in Pixel.

Gilt nur, wenn der Parameter Performlineremoval auf true steht.
0 bis xxxx

Empfohlener Wert
40
LineRemovalVMax
Parameter-Name: lr-vertic-maxthick
Bestimmt die maximale Länge einer auszublendenden vertikalen Linie in Pixel.

Gilt nur, wenn der Parameter Performlineremoval auf true steht.
0 bis xxxx

Empfohlener Wert
100
LineRemovalVMin
Parameter-Name: lr-vertic-minlength
Bestimmt die minimale Länge einer auszublendenden vertikalen Linie in Pixel.

Gilt nur, wenn der Parameter Performlineremoval auf true steht.
0 bis xxxx

Empfohlener Wert
40
RotatePage
Parameter-Name: rotate-page
Rotiert die Seite, sodass sie korrekt ausgerichtet wird, etwa bei 90,180 oder 270 Grad. true (Standard)
Aktiviert die korrekte Ausrichtung der Seite.

false
Deaktiviert korrekte Ausrichtung der Seite.
Timeout
Parameter-Name: timeout
Definiert einen Time-out. Ist die Zeit verstrichen, bricht das Programm ab (in Millisekunden). 0 bis xxxx

Standard
86400000 (24h)
use-bitonal-image:True siehe Spalte Mögliche Werte true
Verwendet das von der OCR-Engine zur Erkennung der Texte benutzte Image als Preview.

false (Standard)
Gibt das Preview der OCR-Engine mit den Standard-Parametern zurück.
WorkDepth Definiert, wie genau die OCR-Erkennung arbeiten soll. 0 bis 255 (höherer Wert = präziseres Ergebnis, jedoch langsamere Verarbeitung)

Standard
100
languages Definiert, welche Sprachen das System zur OCR-Erkennung verwendet.

Hinweis: Welche Sprachen möglich sind, zeigt der OCR-Tuner an. Die asiatische oder kyrillische Sprache steht nicht zur Verfügung.

Auswahl durch Entfernung des #-Symbols vor der Sprache.

Standard
German = Deutsch

Sprache zu Englisch, Französisch oder Deutsch ändern

languages:English+French+German

OCR-Parameter global oder systemweit anpassen


So gehen Sie vor, um die aufgeführten Parameter für den OCR-Tuner global für Ihre agorum core-Installation anzupassen (hier am Beispiel des Parameters EngineVersion):

  1. Öffnen Sie links in der Seitenleiste Administration und dann MetaDB.
  2. Öffnen Sie den Pfad:
    MAIN_MODULE_MANAGEMENT/documentservice/control/services/settings/
  3. Wählen Sie jeweils nacheinander folgende Einträge und führen Sie für jeden Eintrag die Schritte 5 bis 8 aus:

    • convertpdf2txt
    • converttif2txt
    • convertimage2txt
  4. Wechseln Sie jeweils in den Unterordner Windows.
  5. Bearbeiten Sie jeweils den Eintrag Parameters.
  6. Fügen Sie die engine-version hinzu, da einige der Parameter, etwa languages, nur mit der neusten engine-Version funktional sind. Klicken Sie dazu auf    und übernehmen Sie den Eintrag:
    --engine-version:2
    ODER
    --engine-version=2
    
  7. Klicken Sie pro Parameter auf und hinterlegen Sie das Präfix des Parameters, um die globalen Parameter hinzuzufügen:
    --<Parameter>:<Parameterwert>
    ODER
    --<Parameter>=<Parameterwert> 
  8. Speichern Sie die Änderung.
Parameter für OCR-Tuner anpassen (hier: Parameter EngineVersion)

OCR-Parameter gezielt für Aktiven Ordner übernehmen


Damit die Problemdokumente im Produktivsystem erfolgreich ausgelesen werden können, benötigen Sie einen separaten Aktiven Ordner, der sich nur auf diese Dokumente bezieht.

Sobald Sie den Aktiven Ordner erstellt haben, fügen Sie die Parameter in das Feld Zusätzliche Parameter ein. Sie können alle Parameter zeilenweise angeben, die oben in der Tabelle beschrieben sind.

Als Schreibweise pro Parameter gilt:

--<Parameter>:<Parameterwert>
ODER
--<Parameter>=<Parameterwert> 


Beispiel für eine Parameterangabe für einen Aktiven Ordner

 
OCR-Parameter in einen Aktiven Ordner eintragen

Hinweis: Trennt agorum core docform Dokumente und überträgt sie in einen weiteren agorum core docform-Ordner, führt das System keine erneute OCR-Erkennung durch. Es gelten immer noch die Parameter des Trenn-Ordners.

Hinweis: Wenn Sie eine globale Einstellung im OCR-Tuner oder in der MetaDB vornehmen und gleichzeitig den Parameter mit einem anderen Wert im Aktiven Order setzen, hat die Einstellung im Aktiven Ordner Vorrang.

Kleinen Dokumentenbereich perfektionieren


Wurde ein Dokument erfolgreich ausgelesen, aber ein Wert durch die OCR-Engine nicht erkannt, verwenden Sie den OCR-Tuner, um nur für diesen einen Bereich die optimalen OCR-Einstellungen zu finden.

  1. Fahren Sie mit der Maus über den gewünschten Bereich in Ihrem Dokument, sodass sich ein roter Rahmen um den Bereich bildet.
     
    Kleinen Dokumentenbereich perfektionieren
  2. Passen Sie die Einstellungen an, sodass Ihr Begriff in diesem Rahmen lesbar wird.
  3. Kopieren Sie den Begriff und tragen Sie ihn in den Aktiven Ordner ein.

    Hinweis: Die Einstellungen greifen für alle Dokumente, die keine Textinformationen enthalten, und auch auf das gesamte Dokument.

    Um sicherzustellen, dass die OCR mit den gefundenen Einstellungen nur für diese Dokumentart und nur für diesen Bereich gilt, beachten Sie die folgenden Dinge:

    a) Die Dokumentart erhält einen separaten Aktiven Ordner. Dort tragen Sie die eben identifizierten OCR-Parameter ein.
    b) Das Dokument läuft nicht durch die OCR-Engine, stattdessen müssen Textinformationen bereits bestehen. Hat Ihr Dokument diese grundsätzlich nicht, laden Sie das Dokument vorab in einen Ordner von agorum core, damit das Dokument an die OCR-Engine weitergeleitet wird. Anschließend überführen Sie das Dokument in den Aktiven Ordner. Das System erkennt, dass bereits Textinformationen hinterlegt sind, und schickt es ohne Nutzung der Parameter an docform.
    c) Im docform Training verwenden Sie die Reprocessing-Einstellung. Damit senden Sie den Problembereich zurück an die OCR-Engine mitsamt den Parameter-Einstellungen des Aktiven Ordners (siehe agorum core docform - Festgelegte Dokumentbereiche durch den OCR auslesen lassen).