Category Archives

25 Articles

Posted by Dirk Alvermann on

Warum Testsets wichtig sind und wie man sie anlegt, #2

Release 1.7.1

Wie geht man nun praktisch vor, um Testsets anzulegen?

Da kann letztlich jeder seinen eigenen Weg finden. In unserem Projekt werden die Seiten für die Testsets bereits während der Erstellung des GT ausgewählt. Sie erhalten einen besonderen edit status (Final) und werden später in separaten Dokumenten zusammengefasst. So ist gesichert, dass sie nicht aus Versehen ins Training geraten. Immer wenn neuer GT für das künftige Training erstellt wird, wird also auch zugleich das Material für das Testset erweitert. Beide Sets wachsen also „organisch“ und proportional.

Für das systematische Training erstellen wir mehrere Documents, die wir als „Testsets“ bezeichnen und die jeweils auf eine Spruchakte (einen Jahrgang) bezogen sind. Zum Beispiel erstellen wir für das Document der Spruchakte 1594 also ein „Testset 1594“. Hierein legen wir repräsentativ ausgewählte Images, die möglichst die Schreibervielfalt abbilden sollen. Im „Mutter-Dokument“ markieren wir die für das Testset ausgewählten Seiten als „Final“, um sicher zu gehen, dass sie dort auch weiterhin nicht bearbeitet werden. Wir haben nicht für jedes Jahr ein eigenes Testet erstellt, sondern sind in Abhängigkeit des Materials in Fünfjahresschritten vorgegangen.

Da ein Modell häufig über viele Durchgänge trainiert wird, hat dieses Vorgehen auch den Vorteil, dass das Testset immer repräsentativ bleibt. Die CERs der unterschiedlichen Versionen eines Modells lassen sich also stets vergleichen und in der Entwicklung beobachten, weil der Test immer auf demselben (oder erweiterten) Set ausgeführt wird. So ist es leichter die Fortschritte eines Modells zu beurteilen und die weitere Trainingsstrategie sinnvoll anzupassen.

Im Übrigen wird in Transkribus nach jedem Training das dafür verwendete Testset in der betroffenen Kollektion selbständig gespeichert. Man kann also immer wieder darauf zurückgreifen.

Es gibt auch die Möglichkeit, ein Testset erst kurz vor der Durchführung des Trainigs auszuwählen und einfach aus dem Trainingsmaterial einzelne Seiten der Dokumente dem Testset zuzuordnen. Das mag für den Einzelfall eine schnelle und pragmatische Lösung sein, ist für den planmäßigen Aufbau mächtiger Modelle aber nicht geeignet.

Posted by Dirk Alvermann on

Warum Testsets wichtig sind und wie man sie anlegt, #1

Release 1.7.1

Wenn wir überprüfen wollen, wieviel ein Modell im Training gelernt hat, müssen wir es auf die Probe stellen. Das tun wir mit Hilfe von möglichst genau definierten Testsets. Testsets enthalten – wie das Trainingsset – ausschließlich GT. Allerdings stellen wir sicher, dass dieser GT niemals für das Training des Modells verwendet wurde. Das Modell „kennt“ dieses Material also nicht. Das ist die wichtigste Eigenschaft von Testsets. Denn eine Textseite, die schon einmal als Trainingsmaterial diente, wird vom Modell immer besser gelesen werden, als eine, mit der es noch nicht „vertraut“ ist. Das kann man experimentell leicht überprüfen. Will man also valide Aussagen über die CER und WER erhalten, benötigt man „nicht korrumpierte“ Testsets.

Fast genauso wichtig ist, dass ein Testset repräsentativ ist. Solange man ein HTR-Modell für einen einzigen Schreiber oder eine individuelle Handschrift trainiert, ist das nicht schwer – es ist ja schließlich immer dieselbe Hand. Sobald mehrere Schreiber im Spiel sind, muss darauf geachtet werden, dass möglichst alle individuellen Handschriften die im Trainingsmaterial verwendet werden, auch im Testset enthalten sind. Je mehr unterschiedliche Handschriften in einem Modell trainiert werden desto größer werden die Testsets.

Der Umfang des Testsets ist ein weiterer Faktor, der die Repräsentativität beeinflusst. In der Regel sollte ein Testset 5-10% des Umfangs des Trainingsmaterials enthalten. Diese Faustregel sollte aber immer an die spezifischen Anforderungen des Materials und der Trainingsziele angepasst werden.

Um das einmal an zwei Beispielen zu erläutern: Unser Modell für die Spruchakten von 1580 bis 1627 wurde mit einem Trainingsset von fast 200.000 Wörtern trainiert. Das Testset beinhaltet 44.000 Wörter. Das ist natürlich ein sehr hoher Anteil von fast 20%. Er ist darauf zurückzuführen, dass in diesem Modell etwa 300 unterschiedliche Schreiberhände trainiert wurden, die im Testset auch repräsentiert sein müssen. – In unserem Modell für die Assessorenvoten des Wismarer Tribunals sind etwa 46.000 Wörter im Trainingsset enthalten, das Testset umfasst lediglich 2.500 Wörter, also ein Anteil von etwa 5%. Wir haben es hier allerdings auch nur mit 5 verschiedenen Schreiberhänden zu tun. Für die Repräsentativität des Testsets genügt das Material also.

Posted by Dirk Alvermann on

Word Error Rate & Character Error Rate – woran sich ein Modell messen lässt

Release 1.7.1

Die Word Error Rate (WER) und Character Error Rate (CER) zeigen an, wie hoch der Textanteil einer Handschrift ist, den das angewendete HTR-Modell nicht korrket gelesen hat. Eine CER von 10% bedeutet also, dass jedes zehnte Zeichen (und das sind nicht nur Buchstaben, sondern auch Interpunktionen, Leerzeichen etc.) nicht richtig erkannt wurde. Die Accuracy Rate läge demnach bei 90 %. Von einem guten HTR-Modell kann man sprechen, wenn 95% einer Handschrift korrekt erkannt wurde, die CER also nicht über 5% liegt. Das ist in etwa auch der Wert, den man heute mit „schmutziger“ OCR bei Frakturschriften erziehlt. Im Übrigen entspricht eine Accuracy Rate von 95% auch den Erwartungen, die in den DFG-Praxisregeln Digitalisierung formuliert sind.

Selbst bei einer guten CER kann die Word Error Rate hoch sein. Die WER zeigt, wie gut die wortgenaue Wiedergabe des Textes ist. In Aller Regel liegt die WER um das drei bis vierfache höher als die CER und verhält sich proportional zu ihr. Der Wert der WER ist nicht besonders aussagekräftig für die Qualität des Modells, denn anders als Zeichen, sind Wörter unterschiedlich lang und gestatten keine gleichermaßen eindeutigen Vergleich (ein Wort ist schon falsch erkannt, wenn ein Buchstabe darin falsch ist). Darum wird sie auch seltener benutzt, um den Wert eines Modells zu charakterisieren.

Die WER gibt aber Hinweise auf einen wichtigen Aspekt. Denn wenn ich eine Texterkennung mit dem Ziel durchführe, später eine Volltextsuche in meinem Dokuemnt durchzuführen, dann zeigt mir die WER genau die Erfolgsquote, mit der ich bei meiner Suche rechnen kann. Gesucht wird ja nach Worten oder Wortteilen. Egal also wie gut meine CER ist: bei einer WER von 10% kann potentiell jeder zehnte Suchbegriff nicht gefunden werden.

 

Tipps & Tools
Am einfachsten lässt sich die CER und WER mithilfe der Compare Funktion unter Tools anzeigen. Hier könnt ihr bei einer oder mehreren Seiten eine Ground Truth Version mit einem HTR-Text vergleichen und so die Qualität des Modells einschätzen.

Posted by Anna Brandt on

Trainings- und Testsets (für Einsteiger)

Release 1.7.1

Wenn wir ein HTR-Modell trainieren, erstellen wir Trainingssets und Testsets, alle auf der Basis von Ground Truth. In den nächsten Posts zu diesem Thema erfahrt Ihr noch mehr darüber, vor allem, dass beide Sets nicht miteinander vermischt werden dürfen. Doch was genau ist der Unterschied zwischen beiden und wozu sind sie gut?

In der Auswahl des enthaltenen Materials sind Trainings- und Testsets sich sehr ähnlich. Das Material in beiden Sets soll aus denselben Akten kommen und auf demselben Stand (GT) sein. Der Unterschied liegt darin wie es von Transkribus zur Erstellung eines neuen Modells behandelt wird: Das Trainingsset wird vom Programm in hundert (oder mehr) Durchgängen (Epochs) gelernt. Stellt euch vor, ihr schreibt einen Test hundert Mal – quasi zu Übungszwecken. Jedes Mal wenn ihr den Test geschrieben habt, durch alle Seiten durch seid, bekommt ihr die Lösung und könnt euch eure Fehler anschauen. Dann fangt ihr mit derselben Übung von vorne an. Dabei werdet ihr natürlich immer besser. Genauso macht es Transkribus und lernt damit bei jedem Durchgang ein bisschen mehr.

Nach jedem Durchgang in Trainingsset wird das Gelernte am Testset überprüft. Stellt euch wieder den Test vor. Auch diesmal schreibt ihr den Test, bekommt die Note, aber man sagt euch nicht, was ihr falsch gemacht habt. Transkribus geht also viele Male durch dieselben Seiten, kann aber nie die richtige Lösung sehen. Das Modell muss auf das vorher gelernte beim Trainingsset zurückgreifen und daran sieht man dann wie gut es gelernt hat.

Wenn also im Testset dieselben Seiten wie im Training wären, dann könnte Transkribus „schummeln“. Es würde die Seiten schon kennen, hätte schon hundert Mal an ihnen geübt und schon hundert Mal die Lösung gesehen. Das ist der Grund, warum die CER (Character Error Rate/ Zeichenfehlerquote) im Trainingsset fast immer geringer ist, als im Testset. Das sieht man am besten an der „Lernkurve“ eines Modells.

Posted by Dirk Alvermann on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.