Transkriptionspraxis – erste Entscheidungen
In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.
Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.
Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.
Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.
Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.
Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.
Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.