Ansätze zur Datenextraktion / OCR

Intelligent Document Processing, ein allgemeiner Begriff für die durchgängige Digitalisierung dokumentenzentrierter Prozesse, umfasst drei Hauptkomponenten:

  1. Optical Character Recognition, die aus Bildern maschinenlesbaren Text generiert

  2. Datenextraktion, die unstrukturierte Daten (OCR-generiert oder aus einem PDF extrahiert) in strukturierte Key-Value-Paare umwandelt

  3. Prozessautomatisierung, die die Validierung und Systemeingabe strukturierter Daten automatisiert oder erleichtert

In diesem Artikel konzentrieren wir uns auf Komponente Nr. 2, die Datenextraktion.


Im Allgemeinen gibt es zwei Ansätze zur Extraktion von Dokumentendaten: schablonenzentriert und KI-zentriert.


Durch die schablonenzentrierte Datenextraktion kann die Maschine angewiesen werden, bestimmte Textabschnitte basierend auf ihrer Position und Nähe zu bestimmten Ankerschlüsselwörtern zu isolieren. Der Betreiber muss für jede Gruppe ähnlich strukturierter Dokumente (z. B. Rechnungen desselben Lieferanten) eine Schablone erstellen.


Vorteile:

  • Hohe Zuverlässigkeit der Datenextraktion für statische Dokumente

  • Relativ geringe Rechenintensität


Nachteile:

  • Für die Einrichtung der Schablonenbibliothek ist ein erheblicher Aufwand erforderlich

  • Die Schablonenbibliothek erfordert aktive Verwaltung, um auf dem neuesten Stand zu bleiben

  • Änderungen im Dokumentenlayout führen zu falsch positiven Ergebnissen

Die schablonenzentrierte Datenextraktion war der erste praktische Ansatz, um digitalisierte Dokumente in großem Maßstab zu verarbeiten. In der Vergangenheit hat es die intelligente Dokumentenverarbeitung ermöglicht und wird in Unternehmensanwendungen immer noch häufig verwendet.


Die KI-zentrierte Datenextraktion ist ein moderner Ansatz, der sich auf die Verwendung von Techniken des maschinellen Lernens konzentriert, um Datenbeziehungen innerhalb eines Dokuments zu nutzen. Zu diesem Zweck werden am häufigsten neuronale Netze und Deep-Learning-Algorithmen verwendet, obwohl auch andere Algorithmen wie Random Forests oder SVMs mit guten Ergebnissen verwendet werden können.


KI-zentrische Ansätze bewerten verschiedene Merkmale für jeden Datentoken: Datentyp, Textgröße, Textfarbe, Position, benachbarte Token usw., um ihre Werte mit relevanten Labels abzugleichen. Key-Value-Paare mit den höchsten Konfidenzniveaus werden vom Algorithmus zurückgegeben.


Vorteile:

  • Keine Schablonen-Einrichtung oder -Pflege erforderlich

  • Das trainierte Modell kann über mehrere Benutzer hinweg skaliert werden, wodurch sein Lernpotenzial weiter vervielfacht wird

Nachteile:

  • Erfordert einen umfangreichen anfänglichen Trainingsdatensatz

  • Das anfängliche Modelltraining ist rechenintensiv

  • Erfordert umfangreiche maschinelle Lernkompetenzen

Die KI-zentrierte Datenextraktion gewinnt aufgrund ihrer Vielseitigkeit und Skalierbarkeit schnell an Popularität, wobei in letzter Zeit mehrere Anbieter auf den Markt kommen, um die wachsende Nachfrage zu befriedigen. Kommerzielle Anbieter schaffen Mehrwert in mehreren Dimensionen:

  • Implementieren von Algorithmen für maschinelles Lernen

  • Bereitstellung vortrainierter Modelle für ausgewählte Anwendungen

  • Bereitstellung einer Cloud-Infrastruktur für das Training und den Betrieb der Modelle


Die Verwendung eines spezialisierten Anbieters mildert die Nachteile der KI-zentrierten Dokumentenextraktion effektiv, obwohl dies natürlich seinen Preis hat. Aber selbst heute sind die Kosten einer KI-zentrierten Lösung im Vergleich zu einer vorlagenzentrierten Lösung wettbewerbsfähig.


Große Cloud-Anbieter (Google, Amazon, Microsoft) bieten alle KI-zentrierte Datenextraktionsmodelle an, sowohl für allgemeine Zwecke als auch spezialisiert auf Anwendungsfälle wie Rechnungs-, Quittungs-, Ausweis- oder Führerscheindatenextraktion. Manche Anbieter bauen auf ihren Modellen, während andere proprietäre Lösungen entwickeln.


Datenwerte, die von Google Procurement Document AI automatisch aus einer Dienstleistungsrechnung extrahiert werden.

Die Anbieterlandschaft für Datenextraktionslösungen ist sehr heterogen und umfasst unabhängige fokussierte Anbieter (z. B. Nanonets, Taggun, Mindee), Cloud-Computing-GIganten (z. B. Google, Amazon, Microsoft), Full-Stack-IDP-Anbieter (z. B. Kofax, Rossum, ABBYY), RPA-Anbieter (z. B. UiPath, Automation Anywhere) und Anbieter von Automatisierungslösungen (z. B. F-ONE, Nividous). Wir glauben, dass die Kunden gut beraten sind, den KI-zentrierten Ansatz zur Datenextraktion zu wählen und ihre spezifischen Lösungsanforderungen bei der Anbieterauswahl zu berücksichtigen.