Interview zu KI und PDF mit Thomas Zellmann, PDF Association
Neue KI-Anwendungen mit alten PDFs realisieren – das ist doch ein Widerspruch?
Zellmann: Das PDF-Format alleine bildet natürlich noch keine KI ab. Allerdings bildet ein gutes PDF-Archiv ein solides Fundament für solche KI-Anwendungen. Denn Dokumente beinhalten die relevanten Geschäftsdaten, die KI-Anwendungen benötigen, um sinnvolle Ergebnisse zu produzieren. Sind diese Dokumente in einem sauberen PDF-Format abgelegt, können die Inhalte zuverlässig ausgelesen und damit genutzt werden.
Welche Vorteile bieten PDF-Dateiformate im Hinblick auf KI-Nutzung?
Zellmann: Zunächst einmal ist zwischen gescannten und bereits elektronisch erzeugten Dokumenten zu unterscheiden. Eine gescannte und im PDF-Format abgespeicherte Datei liefert sehr gute OCR-Ergebnisse. Born-Digital, also bereits digital erzeugte und getaggte PDFs können über intelligente Softwarelösungen, die eine Mustererkennung beinhalten, umfassendere Informationen extrahieren und zur weiteren Verarbeitung zur Verfügung stellen.
Zu Archivierungszwecken von Dokumenten mag das PDF/A-Format gut geeignet sein, aber es lassen sich wohl schlecht alle digitalen Textinformationen wie E-Mails in PDF/A-Dateien umwandeln, um per KI-Technik darauf zuzugreifen?
Zellmann: Doch, das ist mittlerweile durchaus und mit geringem Aufwand möglich. Denn inzwischen gibt es zahlreiche Produkte, die aus unterschiedlichen Quellformaten, wie Office-Dokumente, E-Mails (mit oder ohne Attachments) PDF/A-Dateien automatisiert erstellen. Wer dabei auf PDF/A-3 setzt, kann sogar die Ursprungsdateien einbetten und sie somit weiter vorhalten.
Ist es praktikabel und empfehlenswert auch Dokumente, die in der täglichen Arbeit »leben«, also häufig weiter bearbeitet und verändert werden, in ein PDF/A- oder anderes PDF-Format zu transformieren?
Zellmann: Nein, unsere Empfehlung lautet, erst die finale Version in das PDF/A-Format zu wandeln. Ein typisches Szenario sind Vertragsverhandlungen per E-Mail. Hier gehen oftmals zwischen den Vertragspartner unterschiedliche Versionen hin und her. Deren Bearbeitung ist dann sicherlich mit einer Textverarbeitung einfacher und leichter nachvollziehbar. Die finale Version des Vertrages sollte dann aber im PDF/A-Format abgelegt werden.
Wo PDF drauf steht, ist nicht immer PDF drin. Welche tiefgreifenden Qualitätsunterschiede gibt es, die sogar Geschäftsprozesse behindern können?
Zellmann: Zahlreiche einfache Freeware- oder Shareware-Tools erzeugen teilweise technisch schlechte PDFs, die nicht auswertbar sind oder sich sogar von einigen Readern nicht öffnen lassen. Außerdem erleben Anwender immer wieder, dass sie Inhalte aus einer PDF-Datei per copy & paste in eine E-Mail oder ihre Textverarbeitung übernehmen wollen und dann feststellen müssen, dass der Text nicht lesbar ist. Technisch gesehen liegt das in der Regel an falsch benutzten Schriftarten oder der fehlenden UNICODE-Verwendung. Auch eine KI-Anwendung kann die Daten dann nicht »verstehen«. Ein weiteres Beispiel sind gescannte Dateien, die ursprünglich als TIFF-Datei abgelegt wurden und dann einfach nach PDF konvertiert werden. Sie sind dann noch lange nicht volltextfähig. Es ist nach wie vor ein abgespeichertes Bild und kein durchsuchbares Dokument. KI-Systeme haben somit kein »Futter« für die Inhaltsanalyse, geschweige denn für die Auswertung. Ein weiterer Schritt, nämlich eine OCR über die PDF-Datei laufen zu lassen, ist notwendig.
Wie erkennen interessierte Anwender, ob ein Hersteller bezüglich PDF und Analysemethoden gut gerüstet ist?
Zellmann: Sie sollten sich von den in Betracht kommenden Herstellern Referenzprojekte vorlegen lassen und ihnen Beispiel-Dateien zum Analysieren mitgeben. Auf unserer Verbandsseite präsentieren unsere Mitglieder ihre professionellen PDF-Lösungen. So erhalten Interessenten schon mal einen ersten Überblick.
KI-gestützte Systeme sollten doch eigentlich in der Lage sein, formatunabhängig Inhalte aus relevanten Dokumenten und Dateien herauszusuchen. Was spricht dagegen?
Zellmann: Zunächst einmal grundsätzlich nichts. Allerdings ist die Frage, wie lange die Dateien lesbar bleiben. Insbesondere bei nativen, herstellerabhängigen Formaten ist nicht sichergestellt, dass diese über Jahre hinweg lesbar bleiben. Die Erfahrung zeigt jedoch vor allem, dass Unternehmen von KI-Lösungen »träumen«, aber dafür noch keine Basis in Form eines guten Dokumentenarchivs haben. Teilweise gleicht diese einem unkontrollierten Zoo mit unzähligen unterschiedlichen Dateiformaten. Je mehr Formate vorhanden sind, desto mehr »Schnittstellen« muss die KI-Lösung haben, um diese zu verarbeiten.
Welche praktischen Beispiele können Sie für den erfolgreichen Einsatz von KI-Technologien in Verbindung mit PDF nennen?
Zellmann: Das Paradebeispiel ist sicherlich die automatische Klassifikation des Posteingangs. Hier gibt es bereits sehr fortgeschrittene Anwendungen, bei denen intelligente Lösungen, aufgrund vorhandener Begriffe in Dokumenten, diese automatisiert vorbereiten und an die entsprechenden Abteilungen weiterleiten.
Wie sehen Sie die weitere Entwicklung hinsichtlich KI und PDF?
Zellmann: Obwohl das PDF-Format bereits 25 Jahre alt ist, wird an dem Format kontinuierlich weitergearbeitet und es wird damit fit für aktuelle und kommende IT-Anwendungen gemacht. Während es in den 90er Jahren lediglich als »elektronisches Papier« gehandelt wurde, ist das PDF heute wesentlich intelligenter, was die Nutzung für KI-Anwendungen erst ermöglicht. Wir, die PDF Association, sind davon überzeugt, dass das PDF-Format künftig noch weitere Möglichkeiten im Hinblick auf die intelligente Verwendung von Dokumenten beinhalten wird. Unabhängig davon möchte ich auf meine Ausgangsargumentation zurückkommen: KI-Anwendungen, so ausgefeilt sie auch sein mögen, benötigen ein gutes Fundament, um zuverlässige Ergebnisse zu liefern. PDF als Dokumenten-Format bildet mit seinen Eigenschaften dafür eine gute Basis.