Dirk Alvermann


Posted by Dirk Alvermann on

Warum Testsets wichtig sind und wie man sie anlegt, #1

Release 1.7.1

Wenn wir überprüfen wollen, wieviel ein Modell im Training gelernt hat, müssen wir es auf die Probe stellen. Das tun wir mit Hilfe von möglichst genau definierten Testsets. Testsets enthalten – wie das Trainingsset – ausschließlich GT. Allerdings stellen wir sicher, dass dieser GT niemals für das Training des Modells verwendet wurde. Das Modell „kennt“ dieses Material also nicht. Das ist die wichtigste Eigenschaft von Testsets. Denn eine Textseite, die schon einmal als Trainingsmaterial diente, wird vom Modell immer besser gelesen werden, als eine, mit der es noch nicht „vertraut“ ist. Das kann man experimentell leicht überprüfen. Will man also valide Aussagen über die CER und WER erhalten, benötigt man „nicht korrumpierte“ Testsets.

Fast genauso wichtig ist, dass ein Testset repräsentativ ist. Solange man ein HTR-Modell für einen einzigen Schreiber oder eine individuelle Handschrift trainiert, ist das nicht schwer – es ist ja schließlich immer dieselbe Hand. Sobald mehrere Schreiber im Spiel sind, muss darauf geachtet werden, dass möglichst alle individuellen Handschriften die im Trainingsmaterial verwendet werden, auch im Testset enthalten sind. Je mehr unterschiedliche Handschriften in einem Modell trainiert werden desto größer werden die Testsets.

Der Umfang des Testsets ist ein weiterer Faktor, der die Repräsentativität beeinflusst. In der Regel sollte ein Testset 5-10% des Umfangs des Trainingsmaterials enthalten. Diese Faustregel sollte aber immer an die spezifischen Anforderungen des Materials und der Trainingsziele angepasst werden.

Um das einmal an zwei Beispielen zu erläutern: Unser Modell für die Spruchakten von 1580 bis 1627 wurde mit einem Trainingsset von fast 200.000 Wörtern trainiert. Das Testset beinhaltet 44.000 Wörter. Das ist natürlich ein sehr hoher Anteil von fast 20%. Er ist darauf zurückzuführen, dass in diesem Modell etwa 300 unterschiedliche Schreiberhände trainiert wurden, die im Testset auch repräsentiert sein müssen. – In unserem Modell für die Assessorenvoten des Wismarer Tribunals sind etwa 46.000 Wörter im Trainingsset enthalten, das Testset umfasst lediglich 2.500 Wörter, also ein Anteil von etwa 5%. Wir haben es hier allerdings auch nur mit 5 verschiedenen Schreiberhänden zu tun. Für die Repräsentativität des Testsets genügt das Material also.

Posted by Dirk Alvermann on

Word Error Rate & Character Error Rate – woran sich ein Modell messen lässt

Release 1.7.1

Die Word Error Rate (WER) und Character Error Rate (CER) zeigen an, wie hoch der Textanteil einer Handschrift ist, den das angewendete HTR-Modell nicht korrket gelesen hat. Eine CER von 10% bedeutet also, dass jedes zehnte Zeichen (und das sind nicht nur Buchstaben, sondern auch Interpunktionen, Leerzeichen etc.) nicht richtig erkannt wurde. Die Accuracy Rate läge demnach bei 90 %. Von einem guten HTR-Modell kann man sprechen, wenn 95% einer Handschrift korrekt erkannt wurde, die CER also nicht über 5% liegt. Das ist in etwa auch der Wert, den man heute mit „schmutziger“ OCR bei Frakturschriften erziehlt. Im Übrigen entspricht eine Accuracy Rate von 95% auch den Erwartungen, die in den DFG-Praxisregeln Digitalisierung formuliert sind.

Selbst bei einer guten CER kann die Word Error Rate hoch sein. Die WER zeigt, wie gut die wortgenaue Wiedergabe des Textes ist. In Aller Regel liegt die WER um das drei bis vierfache höher als die CER und verhält sich proportional zu ihr. Der Wert der WER ist nicht besonders aussagekräftig für die Qualität des Modells, denn anders als Zeichen, sind Wörter unterschiedlich lang und gestatten keine gleichermaßen eindeutigen Vergleich (ein Wort ist schon falsch erkannt, wenn ein Buchstabe darin falsch ist). Darum wird sie auch seltener benutzt, um den Wert eines Modells zu charakterisieren.

Die WER gibt aber Hinweise auf einen wichtigen Aspekt. Denn wenn ich eine Texterkennung mit dem Ziel durchführe, später eine Volltextsuche in meinem Dokuemnt durchzuführen, dann zeigt mir die WER genau die Erfolgsquote, mit der ich bei meiner Suche rechnen kann. Gesucht wird ja nach Worten oder Wortteilen. Egal also wie gut meine CER ist: bei einer WER von 10% kann potentiell jeder zehnte Suchbegriff nicht gefunden werden.

 

Tipps & Tools
Am einfachsten lässt sich die CER und WER mithilfe der Compare Funktion unter Tools anzeigen. Hier könnt ihr bei einer oder mehreren Seiten eine Ground Truth Version mit einem HTR-Text vergleichen und so die Qualität des Modells einschätzen.

Posted by Dirk Alvermann on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.

Posted by Dirk Alvermann on

WebUI & Expert Client

Wie schon gesagt, bezieht sicher dieser Blog fast ausschließlich auf den Expert Client von Transkribus. Er bietet eine Vielzahl von Möglichkeiten, deren Beherrschung ein gewisses Maß an Kenntnissen voraussetzen.

Das WebUI ist wesentlich beschränkter im Funktionsumfang, aber eben auch übersichtlicher. Im WebUI ist es nicht möglich, eine automatische Layout Analyse durchzuführen oder eine HTR zu starten, geschweige denn ein Modell zu trainieren oder in das User Management einzugreifen. Dafür ist es aber auch nicht gedacht.

Das WebUI ist das ideale Interface für crowd projects mit vielen Freiwilligen, die v.a. Transkriptionen anfertigen oder Inhalte kommentieren und taggen. Und genau dafür wird es auch am häufigsten eingesetzt. Die Koordination eines solchen crowd projects wird also immer über den Expert Client ausgeführt werden müssen.

Die Vorteile des WebUI liegen darin, dass es voraussetzungslos zu benutzen ist (wie der Name schon sagt eine Web-Applikation, die über den Browser aufgerufen wird, keine Installation, keine Updates etc.). Außerdem ist es so gut wie selbsterklärend und kann ohne jegliche Vorkenntnisse von fast jedermann benutzt werden.

 

Tipps & Tools
Auch das WebUI hat ein Versions management – etwas angepasst für crowd projects. Wenn ein Transcriber mit der zu bearbeitenden Seite fertig ist, setzt er den Edit Status auf „ready for review“, so dass sein Supervisor weiß, dass er nun gefragt ist.

Posted by Dirk Alvermann on

Wissen was man will

Ein Digitalisierungsprojekt mit Handschriftentexterkennung kann ganz unterschiedliche Zielsetzungen haben. Die reichen von der kritischen digitalen Edition über die Bereitstellung von Handschriften als Volltexte bis hin zur Erschließung großer Textkorpora über Key Word Spotting. Alle drei Zielsetzungen ermöglichen unterschiedliche Herangehensweisen, die großen Einfluss auf den technischen und personellen Aufwand haben.

In diesem Projekt interessieren nur die letzten beiden Zieldefinitionen, da eine kritische Edition nicht angestrebt wird, auch wenn die in diesem Projekt generierten Volltexte als Grundlage einer solchen dienen können.

Wir streben eine möglichst vollständige Erschließung des Inhalts der Handschriften durch automatische Texterkennung an. Die Ergebnisse sollen anschließend in der Digitalen Bibliothek Mecklenburg Vorpommern online gestellt werden. Dort steht zunächst eine Suche zur Verfügung, die die Treffer im image selbst anzeigt. Der Nutzer, der über ausreichend paläografische Kenntnisse verfügt, kann den Trefferkontext im image selbst erschließen oder auf eine moderne Volltextansicht umschalten, oder sogar nur diese benutzen.

Posted by Dirk Alvermann on

Warum HTR alles verändert

Seit einigen Jahren widmen sich Archive und Bibliotheken in immer größerem Umfang der Digitalisierung von historischen Handschriften. Die Strategien sind dabei recht unterschiedlich. Die einen möchten ihre „Kostbarkeiten“ zeitgemäß präsentieren, andere möchten umfangreichere Bestände in zweckmäßiger Form für die Benutzung verfügbar machen. Die Vorteile der Digitalisierung liegen auf der Hand. Die Originalquellen werden geschont und die interessierten Forscher und Laien können unabhängig von Ort und Zeit auf das Material zugreifen, ohne Tage oder Wochen in Lesesälen zubringen zu müssen. Das ist ein enormer Fortschritt, gemessen an der Praxis des 20. Jahrhunderts.

Solche digitalen Angebote – die zunächst nicht mehr als ein digitales Abbild der historischen Originalquelle bereitstellen – werden also mit großem Aufwand, sowohl finanziell als auch personell, erarbeitet und unterhalten. Schaut man auf die Zielgruppe dieser Angebote, dann stellt man fest, dass es sich an dieselben Adressaten richtet, die auch Archive und Bibliotheken aufsuchen, vielleicht auch einige mehr, die aber alle über die Fertigkeit verfügen, solche historischen Handschriften überhaupt entziffern zu können. Optimistisch geschätzt, reden wir also von ein bis zwei Prozent der Bevölkerung. Für alle übrigen sind diese Digitalisate lediglich schön anzusehen.

Dieses Bild sollte man sich vor Augen halten, wenn man verstehen möchte, warum HTR in der Geschichte der digitalen Erschließung und Nutzung historischer Handschriften ein völlig neues Kapitel aufschlägt. Mit einem Satz könnte man sagen: HTR gestattet den Schritt von der einfachen Digitalisierung zur digitalen Transformation historischer Quellen. Dank der HTR wird nämlich nicht nur das digitale Abbild einer Handschrift sondern auch ihr Inhalt in einer für jedermann lesbaren und von Maschinen durchsuchbaren Form – und zwar über hunderttausende Seiten hinweg – verfügbar gemacht.

Für die Nutzung historischer Handschriften bedeutet das nicht weniger, als das ihr Inhalt einen Interessentenkreis geöffnet werden kann, dem er bislang verschlossen blieb oder wenigstens nicht ohne weiteres erschließbar war. Damit ist nicht nur der Kreis der Laienforscher angesprochen. Auch für wissenschaftliche Fachvertreter aus Disziplinen, in denen eine historische Hilfswissenschaften nicht zum klassischen Ausbildungskanon gehören, wird die Zugänglichkeit zu den Inhalten der Quellen erleichtert. Neue Konstellationen interdisziplinären Forschens werden so ermöglicht. Und schließlich: da die Inhalte der Handschriften nun maschinell auswertbar sind, lassen sich Fragestellungen und Methoden der Digital Humanities weitaus leichter an das Material herantragen als zuvor.

Tipps & Tools
Lesetipp: Mühlberger, Archiv 4.0 oder warum die automatisierte Texterkennung alles verändern wird Tagungsband Archivtag Wolfsburg, in: Massenakten – Massendaten. Rationalisierung und Automatisierung im Archiv (Tagungsdokumentationen zum Deutschen Archivtag, Band 22), hg. v. VdA, Fulda 2018, S. 145-156.