2 Articles

Posted by Dirk Alvermann on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.

Posted by Elisabeth Heigl on

Transkriptionspraxis – erste Entscheidungen

In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.

Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.

Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.

Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.

Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.

Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.

Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.