Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht
Navigation: Dokumentationen agorum core > agorum core docform > agorum core docform - Troubleshooting
Diese Dokumentation zeigt, wie Sie Dokumente mit docform trainieren. Folgende Bereiche lernen Sie kennen:
Unter Dokumente trainieren für Anfänger haben Sie bereits erste Einstellungen zu den Suchelementen kennengelernt. In diesem Abschnitt erfahren Sie mehr zur Verwendung der übrigen Einstellungen.
Identifizierungsmerkmale können Sie ausschließen. Hierbei kann es sich etwa um zwei ähnlich lautende Wörter handeln, die auf einem Dokument (Rechnung oder Lieferschein) vorkommen:
Bei dem rechten Dokument handelt es sich um eine Sammelrechnung, erkennbar rechts an dem Wort Sammelrechnung. Bei dem Dokument links handelt es sich um eine normale Einzelrechnung.
Würden Sie die Rechnung trainieren, würde docform automatisch auch die Sammelrechnung als Rechnung erkennen, weil hier das Wort Rechnung enthalten ist. Es handelt sich jedoch um zwei verschiedene Dokumente, die Sie unterschiedlich trainieren müssen. Zu diesem Zweck können Sie Identifizierungsmerkmale ausschließen, d. h. Wörter, die docform nicht berücksichtigen soll.
Trainieren Sie eine Rechnung trainieren und erkennt docform zu viele Positionen, weil eine Position in Ihrer Fußzeile oder Kopfzeile vorhanden ist, können Sie diese Position ausschließen, ähnlich dem einem Identifizierungsmerkmal:
In folgendem Beispiel erfahren Sie, was Sie unternehmen können, wenn kein verbotenes Wort in Ihren Positionen existiert. Es handelt sich hier im Beispiel um den Bruttowert.
Ignoriert Text oder Strichcode. Sofern Sie nur nach einem Strichcode suchen möchten, wählen Sie Text ignorieren, damit docform nicht versehentlich anderen Text erkennt.
Definiert den Anfang und das Ende der Seiten und setzt sie in Bezug. Die Seitenzahlen sind immer passend zum aktuell vorliegenden Dokument, die Optionen darunter zur Information für docform für weitere Dokumente.
Beispiel
In einem Dokument mit 20 Seiten steht das Gesuchte immer auf der vorletzten Seite (19). Dementsprechend müssen Sie nicht das ganze Dokument vom System durchsuchen lassen, sondern nur die vorletzte Seite. Sie stellen die Seitenzahlen wie folgt ein:
Anfang
Ende
docform durchsucht jetzt nur Seite 19, also die vorletzte Seite. Der Suchdurchlauf erfolgt dadurch schneller.
Diese Einstellung kommt auch zum Einsatz, wenn Sie mit verschachtelten Positionen arbeiten und diese auslesen.
Der Ankerpunkt bezieht sich auf eine der Ecken oder Seiten der grünen Region. Im Standard ist dies die obere linke Ecke. Ändern Sie etwa bei rechtsbündigem Text den Ankerpunkt.
Ändert die relative oder absolute Definition der Kanten / Breiten / Höhen.
Der hier vorgestellte Tipp greift etwa bei einer Rechnung mit verschachtelten Positionen. Verschachtelte Positionen liegen etwa vor, wenn eine Lieferscheinnummer für mehrere Positionen gilt. Dasselbe kann für eine Artikelbezeichnung gelten:
Die Artikelbezeichnung Diesel trifft für alle darunter liegenden Positionen zu. Sobald Sie einen Wert außerhalb der eigentlichen Position stehen haben, handelt es sich um eine verschachtelte Position.
Die folgenden Einstellungen sind nötig, um verschachtelte Positionen auszulesen:
Hinweis: Setzen Sie auch die letzte Seite des Dokuments.
Oftmals enthalten Rechnungen oder anderweitige Dokumente Positionen, die sich über die gesamte Breite ziehen. Dabei kann es vorkommen, dass docform ein einige Positionen splittet, weil eine neue Seite beginnt:
Im folgenden Video erfahren Sie, wie Sie einen solchen Positionsbruch in docform trainieren:
Wenn Sie Dokumente auslesen möchten, die mal ein- und mal mehrseitig sind, kann es vorkommen, dass Sie Metadaten trainieren müssen, die auf verschiedenen Seiten stehen. Dies ist oft bei Rechnungen mit Positionen der Fall. Mal bestellen Sie wenig, und die gesamte Rechnung passt auf eine Seite. Dort finden Sie auch den Bruttowert. Mal bestellen Sie mehr, und plötzlich befindet sich der Bruttowert auf Seite 5 oder 8.
Damit das System solche Metadaten auslesen kann, teilen Sie dem System mit, dass es diesen Wert auf allen Seiten finden kann. Anbei ein Beispiel, wie Sie diese Einstellung beim Training direkt während des Definitionsassistenten einstellen können:
In diesem Beispiel nehmen wir die Einstellung bei einseitigen Dokumenten vor, und das während des Definitionsassistenten. Die hier vorgestellte Einstellung können wir aber auch, wie in Minute 7:47 zu sehen ist, final anpassen.
Beachten Sie, dass das Häkchen wieder verschwindet, sobald Sie das Training erneut öffnen. Die Einstellungen werden nämlich vom System unterhalb der Eigenschaften des Suchelementes (~Minute 10:57) angepasst, und es besteht kein Bedarf mehr, das Häkchen aufzulisten.
Wenn Sie es mit einer Rechnung zu tun haben, deren Positionswerte einen unterschiedlichen Abstand zueinander haben, benötigen Sie ein Suchfeld.
Oftmals enthalten Rechnungen oder anderweitige Dokumente Positionen, die sich über die gesamte Breite ziehen. Dabei kann es vorkommen, dass docform einige Positionen splittet, weil eine neue Seite beginnt:
Im folgenden Video erfahren Sie, wie ein solcher Positionsbruch in docform trainiert werden kann:
Mit dem Tabellenfeld definieren Sie Metadaten anhand von Zeilen und Spalten. Das wird notwendig, wenn sich ein Training von einem Dokumententyp auf Dokumente bezieht, die sich in der Größe immer wieder ändern. Die Änderung kann sich etwa auf eine Tabelle beziehen, die einmal etwas kleiner oder größer ist oder auch auf globale Werte, die sich in der Größe ändern.
Im Folgenden sehen Sie, dass die beiden Dokumente inhaltlich dieselben sind, Größe und Position sich jedoch unterscheiden.
Nachfolgend wird beschrieben, wie Sie ein Dokument mit Tabellenfeldern trainieren.
/y\d/
Hinweis: y steht hierbei für Buchstaben y und \d (digit) für eine beliebige Zahl.
/y\d/
Tipp: Reguläre Ausdrücke dienen dazu, ein immer wiederkehrendes Textmuster erkenntlich zu machen. Ein Datum können Sie etwa als DD.MM.YYYY kennzeichnen. Üben Sie den Umgang mit regulären Ausdrücken etwa anhand von Webseiten, die solche Übungen anbieten.
Die Felder sollen abhängig voneinander sein. Findet docform den Beginn der Tabelle (x1 x2 x3), soll es anschließend die einzelnen Spalten x1, x2 und x3 finden. Nach Identifizierung der Spalten sucht docform nach einer Position(y1) und liest erst dann die Werte aus.
Verschieben Sie die verschiedenen Elemente in folgende Abhängigkeiten:
• Ident(s)
• x1 x2 x3
• x1
• x2
• x3
• y1
• TabellenPosition
• docformschulung_x1
• docformschulung_x2
• docformschulung_x3
Damit die Positionen die korrekten Werte erhalten, passen Sie die grünen Kästchen in der Vorschau an. Diese beschreiben, wo docform nach Werten suchen soll. Überschneiden sich in diesem Fall die Kästchen der verschiedenen Spalten, liest docform in Dokument 2 die Positionen überschneidend aus.
Mit der Einstellung Tabellenfeld definieren Sie Metadaten anhand von Zeilen und Spalten. Das wird notwendig, wenn sich ein Training von einem Dokumententyp auf Dokumente bezieht, die sich in der Größe immer wieder ändern.