Die Aufgabe eines OCR-Programms ist es, aus der Ansammlung von Punkten in einer Bilddatei wieder rechnerinterpretierbare Zeichen zu erzeugen (also Text im Sinne von ASCII-Zeichen). Dieser so extrahierte Text kann dann wiederrum einer maschinellen Weiterverarbeitung (z.B. Buchung einer Rechnung) zugeführt werden.
Man kann also sagen, dass die OCR-Software bildhafte Information in rechnerinterpretierbare Zeichen umwandelt. Beim manuellen Abtippen einer Rechnung erfolgt diese Übersetzung vom Menschen vor dem Bildschirm. Der OCR-Vorgang erfolgt in mehreren Schritten.
 

Wie funktioniert OCR?

Zunächst macht das Programm eine Layout-Analyse, bei der unter anderem Textblöcke von grafischen Elementen unterschieden werden. Der Text wird dann wiederum in Absätze, Sätze, Wörter und Zeichen unterteilt und das Programm merkt sich, wo welche Textelemente stehen.
 Als nächstes folgt die Zeichenerkennung, bei der die Software die gefundenen Zeichen korrekt identifizieren muss. Das geschieht mit Hilfe verschiedener Verfahren der Muster- sowie der Merkmalserkennung, die für ein optimales Ergebnis miteinander kombiniert werden. Merkmale eines E sind zum Beispiel ein senkrechter und drei waagerechte Striche, unabhängig davon, welche Schriftart verwendet wird. Bei der Mustererkennung gleicht die Software die gefundenen Zeichen (Bildpunkte) mit den Zeichen in der eigenen Datenbank ab, wobei allerdings eine hundertprozentige Übereinstimmung erzielt werden muss, damit das Zeichen als erkannt gilt. Welche Anbieter welche Verfahren wie kombinieren, ist quasi das Geheimrezept ihres Erfolges.
 Zuletzt baut das OCR-Programm die Zeichen wieder zu Wörtern und Sätzen zusammen. Um ein möglichst gutes Ergebnis zu erzielen, verwendet es integrierte Wörterbücher, mit denen der erkannte Text abgeglichen wird, und versucht sogar grammatikalische Regeln zu berücksichtigen.
 

Was beeinflusst die Qualität der Texterkennung?

Basierend auf diesem Vorgehen zur Texterkennung hängt die Qualität des Ergebnisses maßgeblich von folgenden Faktoren ab:

  • Qualität der Layouterkennung
  • Umfang und Qualität der Muster-Datenbank
  • Umfang und Qualität der Wörterbücher
  • Qualität der Algorithmen zur Fehlerkorrektur
  • Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes
  • Auflösung und Qualität der Bilddatei

 

Die größten Missverständnisse über OCR und elektronische Rechnungsverarbeitung

Im Zusammenhang mit Rechnungsverarbeitung gibt es einige Missverständnisse über OCR, die sich hartnäckig halten.

  • Missverständnis Nr. 1: Elektronische Rechnungsverarbeitung = OCR: OCR ist nicht gleichzusetzen mit elektronischer Rechnungsverarbeitung. Es ist vielmehr eine Vorstufe dazu. Wie bereits beschrieben, ist OCR ein maschinelles Verfahren, um Daten zu erfassen und – im Fall von Rechnungen – ins ERP-System zu übertragen, so dass sie von dort aus elektronisch verarbeitet werden können. Es ersetzt also nicht die elektronische Verarbeitung, sondern lediglich den vorgelagerten manuellen Prozess der Rechnungserfassung.
  • Missverständnis Nr. 2: OCR ist Voraussetzung für die elektronische Rechnungsverarbeitung: Obwohl ich OCR gerade als Vorstufe der elektronischen Rechnungsverarbeitung beschrieben habe, ist es keine notwendige Voraussetzung dafür. Denn auch ohne OCR lassen sich Rechnungen elektronisch verarbeiten. Zum einen kann man Papierrechnungen manuell erfassen (was allerdings sehr aufwendig und zugleich fehleranfällig ist), zum anderen kann man Rechnungen direkt als elektronischen Datensatz empfangen (d.h. als echte elektronische Rechnung).
  • Missverständnis Nr. 3: Die Fehlerkorrektur bei OCR ist eine triviale Aufgabe: Mitnichten! OCR ist ein komplexer Prozess und auch wenn eine sehr gute Software verwendet wird, kann eine manuelle (Nach-)Bearbeitung nicht gänzlich entfallen. Manch ein Unternehmen glaubt, diese von fachfremden Aushilfskräften erledigen lassen zu können, da es sich ja ebenso wie bei der manuellen Erfassung von Papierrechnungen um eine monotone Routineaufgabe handelt. Übersehen wird dabei, dass OCR-Programme nach und nach dazulernen und die Eingaben der Mitarbeiter entscheidend dafür sind, ob Dokumente künftig richtig erfasst und verarbeitet werden. Es ist also unerlässlich, an dieser Stelle Mitarbeiter mit entsprechendem Know-How einzusetzen.

 

Rechnungsverarbeitung mit OCR: die wichtigsten Vor- und Nachteile

Jede Einführung neuer Software bringt einiges an Arbeits- und Kostenaufwand mit sich. Daher will es gut überlegt sein, ob sich die Investition auch lohnt. Wie bereits beschrieben, ist OCR für die elektronische Rechnungsverarbeitung keine Voraussetzung. Wo also liegen die Vor- und Nachteile beim Einsatz von OCR?

Empfängt ein Unternehmen viele Papierrechnungen, so ist die Erfassung mit OCR durchaus der manuellen Erfassung vorzuziehen, da die Zeitersparnis schon bald die Investition wettmacht. Als kritische Größe werden ca. 100 Rechnungen/Tag gesehen.

Außerdem ist mit OCR die elektronische Rechnungsverarbeitung unabhängig davon einsetzbar, ob Lieferanten ihre Rechnungen elektronisch versenden oder nicht. Dienstleister wie Basware bieten ihren Kunden Aktivierungskampagnen, um Lieferanten vom Umstieg auf den elektronischen Rechnungsversand zu überzeugen und die jeweils passende Lösung zu finden. Durch den Einsatz von OCR kann man jedoch sofort mit der elektronischen Rechnungsverarbeitung starten, auch wenn zunächst noch viele Lieferanten Papierrechnungen schicken und erst schrittweise auf den elektronischen Rechnungsaustausch umstellen.

Auf der anderen Seite gibt es aber auch Argumente gegen OCR. Die Datenqualität ist nicht so gut wie bei Rechnungen, die von vorneherein elektronisch empfangen werden. Das bedeutet, dass verhältnismäßig viel manuelles Nacharbeiten erforderlich ist, besonders in der Anfangszeit, wenn das Programm noch lernt. Zudem sollte das Layout der Dokumente standardisiert sein. Da OCR-Programme sich merken, wo was auf einem Dokument platziert ist, muss es jedes Mal wieder neu lernen, wenn im Layout etwas geändert wird, also zum Beispiel die Kopfdaten anders platziert werden. Fehlende Standardisierung verlangsamt die Texterkennung und erhöht die Fehleranfälligkeit.
 

Fazit

Für eine höchstmögliche Datenqualität in der Rechnungsverarbeitung lohnt es sich langfristig das Ziel zu verfolgen, den Anteil echter elektronischer Rechnungen im Rechnungseingang zu steigern. Erfahrungsgemäß bleibt jedoch meist ein geringer Anteil an Papierrechnungen übrig, selbst wenn ein Großteil der Kreditoren elektronische Rechnungen an Sie sendet. Da es sich nicht lohnt, für wenige Belege eine teure eigene Scan- und OCR-Infrastruktur vorzuhalten, sollten Sie auf jeden Fall darauf achten, dass der Lösungsanbieter Ihrer Wahl auch Scan & OCR Dienstleistungen anbieten kann. Das bedeutet, egal in welcher Form Ihre Lieferanten Rechnungen an Sie senden, erhalten Sie ausschließlich elektronische Rechnungsdaten im Rechnungseingang.

Wer sich für elektronische Rechnungsverarbeitung mit OCR entscheidet, der hat mit Basware grundsätzlich zwei Möglichkeiten, dies umzusetzen. Entweder übernimmt Basware sowohl das Scannen als auch die Texterkennung und Validierung der Daten oder Sie scannen selber und übergeben die Dokumente anschließend zur weiteren Bearbeitung an Basware (hier erfahren Sie mehr zu Scan & Capture von Basware). Wie sich das im Einzelnen gestaltet, erläutere ich Ihnen bei Interesse auch gerne in einem persönlichen Gespräch. Kontaktieren Sie mich am Besten hier.

Autor:
André von de Finn
Director Network Business Area DACH