Die OCR-Engine ist wie das Herzstück eines DMS/ECM. OCR steht für Optical Character Recognition und ist für die automatisierte Texterkennung zuständig. In Kombination mit der agorum core docform-Familie lassen sich Rechnungen positionsgenau auslesen. Wie die ausgereifte Technik funktioniert, beschreiben wir in diesem Blogbeitrag.
OCR-Engine im DMS/ECM agorum core
Um Dokumente in einem DMS/ECM zu verarbeiten, wird eine OCR-Software für die Texterkennung benötigt. agorum core ist mit Readiris ausgestattet und in der Praxis bestens erprobt. Die zu verarbeitenden Dokumente können in drei Kategorien eingeteilt werden:
1. Nicht durchsuchbare Dokumente
Das sind Dokumente, die über optische Eingabegeräte, wie zum Beispiel Scanner, Digitalkameras, Fax oder Apps ins System gelangen. Daten aus diesen Quellen müssen den OCR durchlaufen. Dieser erfasst die Informationen als Bilder und wandelt diese in lesbaren Text um, verarbeitet sie weiter und übergibt sie im Falle einer Rechnung an docform. Danach startet der Workflow.
2. Durchsuchbare Dokumente aus Drittsystemen
Hier sprechen wir von Dokumenten, die digital generiert werden, wie zum Beispiel Rechnungen, Word-Dokumente, Berichte, PDF-Dateien etc. Diese (Text)-Inhalte sind im Dokument hinterlegt und dadurch im DMS auslesbar und müssen nicht mehr durch den OCR.
3. Durchsuchbare Dokumente, die bereits Metainformationen enthalten, wie zum Beispiel ZUGFeRD und XRechnungen
Seit November 2020 gilt für die wirtschaftliche Zusammenarbeit mit Bund, Ländern und Kommunen das E-Rechnungsgesetz. Ziel des Gesetzes ist es, Rechnungen elektronisch zu vereinheitlichen und langfristig Papierrechnungen abzuschaffen. Entstanden sind hybride elektronische Rechnungsformate mit den Namen ZUGFeRD und XRechnungen.
- Die ZUGFeRD-Rechnung besteht aus zwei Komponenten: einer PDF-Datei, die die Rechnungen für Menschen lesbar macht, und einer XML-Datei, die Metadaten enthält, die nur mit entsprechenden Programmen lesbar sind.
- Die XRechnung hingegen ist ein vollständig XML-basiertes Rechnungsformat und kann nicht vom Nutzer gelesen werden.
Rechnungen in diesen beiden Formaten müssen nicht mehr den OCR durchlaufen und auch nicht trainiert werden. Das DMS/ECM agorum core wird so konfiguriert, dass ein Mapping mit dem Rechnungsdokument erfolgt und die Daten synchronisiert werden.
WICHTIG
Um die Ressourcen des OCRs zu schonen – das ist besonders bei hohen Datenmengen wichtig – bietet die docform-Familie Möglichkeiten, um die Auslastung des OCRs zu steuern. Dadurch werden wie oben beschrieben Dokumente, die bereits Textinformationen besitzen, nicht mehr durch den OCR erfasst.
Die agorum core docform-Familie
Die docform-Familie von agorum core ist für den gesamten Bereich der automatisierten Dokumentenverwaltung zuständig. Die Familie ist modular aufgebaut, und Unternehmen können wählen, wie hoch der Automatisierungsgrad sein soll – vom einfachen Auslesen der Rechnungen bis hin zu vollautomatisierten Prozessen. Das positionsgenaue Auslesen mit Abgleich von Lieferscheinen haben wir ausführlich in diesem Blogbeitrag beschrieben.
"Was uns bei der Entwicklung wichtig war ..."
Durch die OCR-Einstellungen kann der Kunde entscheiden, ob er z. B. Barcodes auslesen oder Dokumente, die um 90 Grad gedreht sind, korrigiert haben möchte etc. Wenn das alles deaktiviert ist, geht die Verarbeitung deutlich schneller.
Jan Joshua Jäger | Entwicklung
OCR-Engine: Häufig gestellte Fragen
1.) Wird ein bestimmter Scanner benötigt?
Im Grunde kann jeder Scanner Dokumente digitalisieren und ins DMS/ECM speichern. Das sind die gängigen Varianten:
- Scan to file (Schnittstelle CIFS/SMB, WebDAV oder FTP)
- Scan to mail (als E-Mail Anhang)
- Scanapplikation und manuelles “Speichern unter”
Wir empfehlen Ihnen folgende Scannereinstellungen vorzunehmen, da diese unserer Erfahrung nach die besten Resultate bringen:
- Graustufen oder Farbe
- 300 DPI
- geringe/keine Komprimierung
Um optimale Ergebnisse bei Sonderdokumenten wie farbige oder mit einem Nadeldrucker gedruckte Durchschlagsdokumente zu erhalten, müssen ggf. die Scannereinstellungen optimiert werden. Lässt der Scanner keine Einstellungen zu, können Sie mit dem OCR-Tuner die optimalen Parameter herausfinden.
2.) Was passiert mit Dokumenten, die nicht zugeordnet werden können?
Kann ein Dokument nicht zugeordnet werden, kann es zwei Ursachen geben:
1. Der Ablageort ist nicht bekannt.
2. Die Qualität des Dokumentes ist nicht ausreichend.
In beiden Fällen werden die Dokumente im Audit gespeichert. Die fehlenden Informationen können dann von den Nutzern manuell erfasst werden. Diesen Prozess haben wir ausführlich in diesem Webinar beschrieben.
Bonbon für alle agorum core-Kunden: ab agorum core-Version 9.1.1 gibt es im information center einen Standardfilter, der die Nutzer informiert, wenn Dokumente im Audit sind.
3.) Können Dokumente, die eingeschränkt lesbar sind, ausgelesen werden?
Lieferscheine oder auch Belege sind prädestiniert dafür, verschmutzte Oberflächen aufzuweisen. Wasser, Fett oder mechanische Beanspruchung schränken die Lesbarkeit ein. Der OCR versucht, so viele Informationen wie möglich auszulesen. Wenn nicht alle Positionsdaten ausgelesen werden können, landen die Dokumente im Audit.
4.) Können Positionsdaten auch falsch ausgelesen werden?
Im Prozess gibt es ein Kontrollzentrum, das Daten verifizieren kann. Es gleicht beispielsweise Daten mit externen Datenquellen wie einem ERP oder CSV-Dateien ab. Hierzu folgende Anwendungsbeispiele:
- Gesamtsummen rechnerisch prüfen lassen
- Verifizierung bestimmter Daten eines Dokuments mit DMS-Daten
- In agorum core docform erfasste Dokumente mit im ERP hinterlegten Bestellungen abgleichen
5.) Kann der OCR Handschrift auslesen?
Nein. Jeder Mensch hat seine eigene Handschrift, es gibt viele verschiedene Schreibgeräte, viele Sprachen mit unterschiedlichen Buchstaben und Zeichen. In klassischen Einsatzbereichen eines DMS/ECM hat die Handschrifterkennung noch keinen Einzug gehalten.
Darf es ein bisschen mehr Best Practice sein?
Allen, die mehr Best Practice Beispiele rund um agorum core lesen möchten, finden diese unter der Rubrik Best Practice.
Sie sind herzlich eingeladen!
Im Rahmen einer Online-Demo stellen wir Ihnen das DMS/ECM agorum core ausführlich vor. Ihre Fragen beantworten unsere Experten live und in Farbe. Sprechen Sie vorab mit unseren Kundenberatern und schildern Sie ihnen mehr über Ihr Vorhaben. Wir freuen uns über Ihre Anfrage. Hier.