Open Source Dokumentenmanagement
Dokumentation

Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core docform > agorum core docform - Troubleshooting


Dokumente trainieren für Fortgeschrittene

Diese Dokumentation zeigt, wie Sie Dokumente mit docform trainieren. Folgende Bereiche lernen Sie kennen:

Voraussetzungen


Suchelemente und deren Einstellungen


Unter Dokumente trainieren für Anfänger haben Sie bereits erste Einstellungen zu den Suchelementen kennengelernt. In diesem Abschnitt erfahren Sie mehr zur Verwendung der übrigen Einstellungen.

Identifizierungsmerkmale ausschließen

Identifizierungsmerkmale können Sie ausschließen. Hierbei kann es sich etwa um zwei ähnlich lautende Wörter handeln, die auf einem Dokument (Rechnung oder Lieferschein) vorkommen:

Einzelrechnung 
Sammelrechnung

Bei dem rechten Dokument handelt es sich um eine Sammelrechnung, erkennbar rechts an dem Wort Sammelrechnung. Bei dem Dokument links handelt es sich um eine normale Einzelrechnung.

Würden Sie die Rechnung trainieren, würde docform automatisch auch die Sammelrechnung als Rechnung erkennen, weil hier das Wort Rechnung enthalten ist. Es handelt sich jedoch um zwei verschiedene Dokumente, die Sie unterschiedlich trainieren müssen. Zu diesem Zweck können Sie Identifizierungsmerkmale ausschließen, d. h. Wörter, die docform nicht berücksichtigen soll.

  1. Trainieren Sie die Sammelrechnung wie gewohnt.
  2. Klicken Sie mit der rechten Maustaste im Dokument auf das Wort Sammelrechnung oder auf das Wort, das Sie ausschließen möchten.
  3. Wählen Sie im Kontextmenü Diesen Text als Identifikation verwenden.

    Ergebnis: Rechts in der Baumstruktur taucht ein neuer Eintrag mit dem markierten Wort auf.
  4. Wählen Sie unten im Dialog Eigenschaften und dort im Abschnitt Identifizierung die Einstellung darf nicht gefunden werden.

    Ergebnis:

    • Das Identifizierungsmerkmal färbt sich rot.
    docform sucht zukünftig nicht mehr nach diesem Wort.
Einstellung darf nicht gefunden werden

Identifizierungsmerkmale (Positionen) ausschließen

Trainieren Sie eine Rechnung trainieren und erkennt docform zu viele Positionen, weil eine Position in Ihrer Fußzeile oder Kopfzeile vorhanden ist, können Sie diese Position ausschließen, ähnlich dem einem Identifizierungsmerkmal:

Identifizierungsmerkmale (Positionen) ausschließen: Einstellung „Auf Positionsbereich einschränken“

In folgendem Beispiel erfahren Sie, was Sie unternehmen können, wenn kein verbotenes Wort in Ihren Positionen existiert. Es handelt sich hier im Beispiel um den Bruttowert.

Einstellung „Inhalt“

Ignoriert Text oder Strichcode. Sofern Sie nur nach einem Strichcode suchen möchten, wählen Sie Text ignorieren, damit docform nicht versehentlich anderen Text erkennt.

Einstellung Inhalt

Einstellung „Seite(n)“

Definiert den Anfang und das Ende der Seiten und setzt sie in Bezug. Die Seitenzahlen sind immer passend zum aktuell vorliegenden Dokument, die Optionen darunter zur Information für docform für weitere Dokumente.


Beispiel
In einem Dokument mit 20 Seiten steht das Gesuchte immer auf der vorletzten Seite (19). Dementsprechend müssen Sie nicht das ganze Dokument vom System durchsuchen lassen, sondern nur die vorletzte Seite. Sie stellen die Seitenzahlen wie folgt ein: 


Anfang


Ende

docform durchsucht jetzt nur Seite 19, also die vorletzte Seite. Der Suchdurchlauf erfolgt dadurch schneller.

Einstellung Seite(n)

Diese Einstellung kommt auch zum Einsatz, wenn Sie mit verschachtelten Positionen arbeiten und diese auslesen.

Einstellung „Ankerpunkt“

Der Ankerpunkt bezieht sich auf eine der Ecken oder Seiten der grünen Region. Im Standard ist dies die obere linke Ecke. Ändern Sie etwa bei rechtsbündigem Text den Ankerpunkt.

Einstellung Ankerpunkt

Einstellung „Position und Größe“

Ändert die relative oder absolute Definition der Kanten / Breiten / Höhen.

Einstellung Position und Größe

Verschachtelte Positionen auslesen


Der hier vorgestellte Tipp greift etwa bei einer Rechnung mit verschachtelten Positionen. Verschachtelte Positionen liegen etwa vor, wenn eine Lieferscheinnummer für mehrere Positionen gilt. Dasselbe kann für eine Artikelbezeichnung gelten:

Beispiel: Verschachtelte Positionen

Die Artikelbezeichnung Diesel trifft für alle darunter liegenden Positionen zu. Sobald Sie einen Wert außerhalb der eigentlichen Position stehen haben, handelt es sich um eine verschachtelte Position.

Die folgenden Einstellungen sind nötig, um verschachtelte Positionen auszulesen:

  1. Deaktivieren Sie die Positionsankereinstellung Positionsbereich einschränken.

     
    Einstellung auf Positionsbereich einschränken deaktivieren
  2. Einstellungen des Suchkästchens für suche Informationen oberhalb meines Positionsankers.

     
    Einstellungen des Suchkästchens
    für suche Informationen oberhalb meines Positionsankers
  3. Einstellungen des Suchkästchens für suche Informationen unterhalb meines Positionsankers.

     
    Einstellungen des Suchkästchens
    für suche Informationen unterhalbmeines Positionsankers

    Hinweis: Setzen Sie auch die letzte Seite des Dokuments.

Positionen werden durch Seitenumbruch getrennt

Oftmals enthalten Rechnungen oder anderweitige Dokumente Positionen, die sich über die gesamte Breite ziehen. Dabei kann es vorkommen, dass docform ein einige Positionen splittet, weil eine neue Seite beginnt:

Beispiel: gesplittete Positionen

Im folgenden Video erfahren Sie, wie Sie einen solchen Positionsbruch in docform trainieren:

Sonderfälle beim Trainieren von Dokumenten mit Positionen


Metadaten trainieren, die auf verschiedenen Seiten stehen

Wenn Sie Dokumente auslesen möchten, die mal ein- und mal mehrseitig sind, kann es vorkommen, dass Sie Metadaten trainieren müssen, die auf verschiedenen Seiten stehen. Dies ist oft bei Rechnungen mit Positionen der Fall. Mal bestellen Sie wenig, und die gesamte Rechnung passt auf eine Seite. Dort finden Sie auch den Bruttowert. Mal bestellen Sie mehr, und plötzlich befindet sich der Bruttowert auf Seite 5 oder 8.

Damit das System solche Metadaten auslesen kann, teilen Sie dem System mit, dass es diesen Wert auf allen Seiten finden kann. Anbei ein Beispiel, wie Sie diese Einstellung beim Training direkt während des Definitionsassistenten einstellen können:

In diesem Beispiel nehmen wir die Einstellung bei einseitigen Dokumenten vor, und das während des Definitionsassistenten. Die hier vorgestellte Einstellung können wir aber auch, wie in Minute 7:47 zu sehen ist, final anpassen.

Beachten Sie, dass das Häkchen wieder verschwindet, sobald Sie das Training erneut öffnen. Die Einstellungen werden nämlich vom System unterhalb der Eigenschaften des Suchelementes (~Minute 10:57) angepasst, und es besteht kein Bedarf mehr, das Häkchen aufzulisten.

Rechnungen mit unterschiedlichen Positionshöhen trainieren

Wenn Sie es mit einer Rechnung zu tun haben, deren Positionswerte einen unterschiedlichen Abstand zueinander haben, benötigen Sie ein Suchfeld.

Positionen werden durch Seitenumbruch getrennt

Oftmals enthalten Rechnungen oder anderweitige Dokumente Positionen, die sich über die gesamte Breite ziehen. Dabei kann es vorkommen, dass docform einige Positionen splittet, weil eine neue Seite beginnt:

Beispiel: gesplittete Positionen

Im folgenden Video erfahren Sie, wie ein solcher Positionsbruch in docform trainiert werden kann:

Mit Tabellenfeldern arbeiten


Mit dem Tabellenfeld definieren Sie Metadaten anhand von Zeilen und Spalten. Das wird notwendig, wenn sich ein Training von einem Dokumententyp auf Dokumente bezieht, die sich in der Größe immer wieder ändern. Die Änderung kann sich etwa auf eine Tabelle beziehen, die einmal etwas kleiner oder größer ist oder auch auf globale Werte, die sich in der Größe ändern.

Im Folgenden sehen Sie, dass die beiden Dokumente inhaltlich dieselben sind, Größe und Position sich jedoch unterscheiden.

Dokument mit 1. Tabelle
Dokument mit 2. Tabelle

Nachfolgend wird beschrieben, wie Sie ein Dokument mit Tabellenfeldern trainieren.

Identifikationsmerkmale wählen

  1. Trainieren Sie das Dokument und wählen Sie als Identifikationsmerkmale zweimal das Wort DocFormDemo Tabelle 030 (Schulung) ganz oben im Dokument.

Metadaten auswählen

  1. Wählen Sie y1 als Metadatum.
  2. Als Referenz dazu markieren Sie den gesamten Spaltentitel (x1, x2 und x3).
  3. Folgen Sie den Anweisungen des Definitionsassistenten und wählen Sie Folgendes aus:

    • Positionsanker: y1
    • Referenz: x1 x2 x3>
    • x1: 11
    • Referenz überspringen
    • x2: 12
    • Referenz überspringen
    • x3: 13
    • Referenz überspringen
  4. Bestätigen Sie mit OK.

    Ergebnis: docform liest nur Position 1 aus.

     
    Ausgelesene Position


    Trainieren Sie das Dokument, sodass docform alle 5 Positionen / Zeilen ausliest.

Regulären Ausdruck eintragen

  1. Wechseln Sie in den Trainingsmodus und schauen Sie sich das Positionselement TabellenPosition an. Dort steht als Wert y1, die anderen Zeilen beginnen mit y2, y3 usw. Das immer wiederkehrende Format ist somit ein y und eine Zahl. Dieses Format stellen Sie nun als regulären Ausdruck (RegularExpressions|regEx) dar.
    /y\d/

    Hinweis: y steht hierbei für Buchstaben y und \d (digit) für eine beliebige Zahl.

  2. Markieren Sie TabellenPosition und setzen Sie im Feld Wert Folgendes ein:
    /y\d/

    Tipp: Reguläre Ausdrücke dienen dazu, ein immer wiederkehrendes Textmuster erkenntlich zu machen. Ein Datum können Sie etwa als DD.MM.YYYY kennzeichnen. Üben Sie den Umgang mit regulären Ausdrücken etwa anhand von Webseiten, die solche Übungen anbieten.

    Wert für regulären Ausdruck
  3. Beenden Sie den Definitionsassistenten.

    Ergebnis: docform hat alle Positionen erfolgreich erkannt und ausgelesen.

     
    Ausgelesene Positionen nach Training
  4. Wenden Sie das fertige Training auf das zweite Dokument an, indem Sie das Dokument mit Rechtsklick markieren und im Kontextmenü Neu Erkennen wählen.

    Ergebnis: docform wendet das Training zwar an, das Ergebnis ist jedoch fehlerhaft.

     
    Fehlerhaftes Ergebnis


    Um das zweite Dokument korrekt auszulesen, passen Sie das Training des ersten Dokuments an.

 Training des 1. Dokuments anpassen

  1. Setzen Sie die Genauigkeit eines Identifikationsmerkmals auf 100.
  2. Löschen Sie ggf. ein doppeltes Identifikationsmerkmal. Auch wenn der Assistent zu Beginn zwei Identifikationsmerkmale fordert, reicht eines für ein Training aus.
  3. Erstellen Sie, wie ab Schritt 4 beschrieben, weitere Suchfelder. Die Grundidee dahinter ist, dass das System den Beginn der Positionen anhand von x1    x2    x3 erkennt. Da die einzelnen Spalten die Position der einzelnen Werte bestimmen, helfen wir dem System, indem wir sagen: Finde auch die einzelnen Spaltennamen. Denn diese sind im zweiten Dokument grafisch verschoben worden. 
  4. Markieren Sie das Suchelement x1 x2 x3.
  5. Markieren Sie mit der rechten Maustaste in der Vorschau den Spaltennamen x1 und wählen Sie Diesen Text suchen.
  6. Verfahren Sie auf dieselbe Weise mit x2 und x3.

Felder voneinander abhängig machen

Die Felder sollen abhängig voneinander sein. Findet docform den Beginn der Tabelle (x1    x2    x3), soll es anschließend die einzelnen Spalten x1, x2 und x3 finden. Nach Identifizierung der Spalten sucht docform nach einer Position(y1) und liest erst dann die Werte aus.

  1. Verschieben Sie die verschiedenen Elemente in folgende Abhängigkeiten:
     

    • Ident(s)

      • x1 x2 x3

         • x1

           • x2

             • x3

               •  y1

                 • TabellenPosition

                   • docformschulung_x1

                     • docformschulung_x2

                       • docformschulung_x3

Suchkasten anpassen

Damit die Positionen die korrekten Werte erhalten, passen Sie die grünen Kästchen in der Vorschau an. Diese beschreiben, wo docform nach Werten suchen soll. Überschneiden sich in diesem Fall die Kästchen der verschiedenen Spalten, liest docform in Dokument 2 die Positionen überschneidend aus.

  1. Markieren Sie von der ersten Position an nacheinander die Kästchen der Werte 11, 12 und 13 und verkleinern Sie die Kästchen.

Einstellung „Tabellenfeld“ aktivieren

Mit der Einstellung Tabellenfeld definieren Sie Metadaten anhand von Zeilen und Spalten. Das wird notwendig, wenn sich ein Training von einem Dokumententyp auf Dokumente bezieht, die sich in der Größe immer wieder ändern.

  1. Markieren Sie das erste Textelement namens docformschulung_x1.
  2. Aktivieren Sie unter Eigenschaften im Abschnitt Auslesen die Einstellung Tabellenfeld.

     
    Einstellung Tabellenfeld aktivieren
  3. Wenden Sie das angepasste Training auf das zweite Dokument an, indem Sie das Dokument mit Rechtsklick markieren und im Kontextmenü Neu Erkennen wählen.

    Ergebnis: docform wendet das Training nun korrekt an und liest die komplette Tabelle aus.

     
    Komplett ausgelesene Tabelle