Category Archives

67 Articles

Posted by Elisabeth Heigl on

Transkriptionsrichtlinien

In den Abschriften für den Ground Truth wird die litterale oder diplomatische Transkription angestrebt. Das bedeutet, dass wir bei der Transkription möglichst keine Regulierungen hinsichtlich der Zeichen vornehmen. Die Maschine muss anhand einer möglichst zeichengetreuen Abschrift lernen, um selbst später genau wiedergeben zu können, was auf dem Blatt zu lesen ist. So übernehmen wir beispielsweise konsequent die vokalische und konsonantische Verwendung von „u“ und „v“ der Vorlage. An das Vrtheill vndt die Vniusersitet kann man sich erstaunlich rasch gewöhnen.

Nur in den folgenden Ausnahmen sind wir von der litteralen Transkription abgewichen und haben Zeichen reguliert. Auf die Behandlung von Abbreviaturen gehen wir noch einmal gesondert ein.

Das ſogennante Lang-s und das Schluß-s oder auch runde S können wir nicht litteral übernehmen, weil wir weitgehend auf das Antiqua-Zeichensystem angewiesen sind. Daher übertragen wir beide Formen als „s“.

Umlaute geben wir so wieder, wie sie erscheinen. Diakritische Zeichen werden übernommen, es sei denn das moderne Zeichensystem erlaubt dies nicht; wie im Fall des „a“ mit ‚diakritischem e‘, das zum „ä“ wird. Diphthonge werden ebenfalls übernommen, das „æ″ allerdings als ae″.

Das Ypsilon wird in vielen Handschriften als „ÿ″ geschrieben. Wir transkribieren es aber in der Regel als einfaches y″. Nur wenn es paläografisch begründet ist, differenzieren wir zwischen „y“ und dem ähnlich verwendeten „ij“.

Auch hinsichtlich der Satz- und Sonderzeichen gibt es einige Ausnahmen von der litteralen Transkription: In den Handschriften werden Klammern auf ganz unterschiedliche Weisen dargestellt. Wir verwenden hier aber einheitlich die modernen Klammerzeichen (…). Auch die Worttrennungszeichen am Zeilenende weisen eine hohe Varianz auf, weshalb wir sie ausschließlich mit einem „¬“ wiedergeben. Das im modernen Gebrauch übliche Kupplungszeichen – der Bindestrich – kommt in den Handschriften kaum vor. Stattdessen finden wir bei Kupplung zweier Wörter häufig das „=“, das wir mit einem einfachen Bindestrich wiedergeben.

Die Komma- und Punktsetzung übernehmen wir so wie sie erscheint – sofern überhaupt vorhanden. Endet der Satz nicht mit einem Punkt setzen wir auch keinen.

Groß- und Kleinschreibung wird unverändert nach der Vorlage übernommen. Häufig kann aber nicht eindeutig unterschieden werden ob es sich um einen Groß- oder Kleinbuchstaben handelt. Das betrifft weitgehend schreiberunabhängig insbesondere das D/d, das V/v und auch das Z/z. Im Zweifelsfall gleichen wir dann den fraglichen Buchstaben mit seiner sonstigen Verwendung im Text ab. In Komposita können Großbuchstaben innerhalb eines Wortes vorkommen – auch sie werden getreu nach der Vorlage transkribiert.

Posted by Dirk Alvermann on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.

Posted by Elisabeth Heigl on

Transkriptionspraxis – erste Entscheidungen

In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.

Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.

Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.

Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.

Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.

Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.

Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.

Posted by Anna Brandt on

Elemente

Release 1.7.1

Für Handschriftentexterkennung ist die automatische Layoutanalyse von fundamentaler Bedeutung – ohne Layoutanalyse keine Texterkennung.
Die Layoutanalye sorgt dafür, dass das Image in verschiedene Bereiche abgegrenzt wird, und zwar in solche, die nicht weiter beachtet werden müssen und andere, die den zu erkennenden Text enthalten. Diese Bereiche heißen „Text Regions“ (TR, im Bild grün). Um innerhalb der Textregions Zeichen oder Buchstaben erkennen zu können, benötigt Transkribus „Baselines“ (BL, im Bild rot). Sie werden dort gezogen, wo sich die Grundlinie der Schrift befindet. Baselines werden von einer eigenen Region umgeben, die „line“ (im Bild blau) genannt wird, für den Anwender in der Praxis aber keine Relevanz hat. Die drei Elemente Text Region-Line-Baseline stehen in einem Eltern-Kind-Verhältnis zueinander und können ohne das jeweils übergeordnete Element nicht existieren – keine Baseline ohne Line und keine Line ohne Textregion. Man sollte dieses Elemente, ihre Funktionen und ihr Verhältnis zueinander kennen, v.a. wenn man einmal manuell am Layout arbeiten muss.

Manuelle Layouts sollten eher die Ausnahme als die Regel sein. Denn für die meisten Anwendungsfälle hält Transkribus ein äußerst mächtiges Werkzeug bereit – die „CITlab Advances Layout Analysis“. Es ist das Transkribus Standard-Modell, das seit 2017 erfolgreich eingesetzt wird und in den allermeisten Fällen sehr gute Ergebnisse bei der automatischen Segmentierung liefert. Diese automatische Layoutanalyse kann für eine einzelne Seite, eine Auswahl von Seiten oder ein ganzes Dokument eingesetzt werden.

Alle Elemente zur Segmentierung können auch manuell gesetzt, verändert und bearbeitet werden, was sich bei anspruchsvolleren Layouts, wenn sie nur vereinzelt vorkommen, auch empfiehlt. Dafür steht eine umfangreiche Toolbar zur Verfügung.

Posted by Anna Brandt on

Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.

 

 

 

Posted by Dirk Alvermann on

WebUI & Expert Client

Wie schon gesagt, bezieht sicher dieser Blog fast ausschließlich auf den Expert Client von Transkribus. Er bietet eine Vielzahl von Möglichkeiten, deren Beherrschung ein gewisses Maß an Kenntnissen voraussetzen.

Das WebUI ist wesentlich beschränkter im Funktionsumfang, aber eben auch übersichtlicher. Im WebUI ist es nicht möglich, eine automatische Layout Analyse durchzuführen oder eine HTR zu starten, geschweige denn ein Modell zu trainieren oder in das User Management einzugreifen. Dafür ist es aber auch nicht gedacht.

Das WebUI ist das ideale Interface für crowd projects mit vielen Freiwilligen, die v.a. Transkriptionen anfertigen oder Inhalte kommentieren und taggen. Und genau dafür wird es auch am häufigsten eingesetzt. Die Koordination eines solchen crowd projects wird also immer über den Expert Client ausgeführt werden müssen.

Die Vorteile des WebUI liegen darin, dass es voraussetzungslos zu benutzen ist (wie der Name schon sagt eine Web-Applikation, die über den Browser aufgerufen wird, keine Installation, keine Updates etc.). Außerdem ist es so gut wie selbsterklärend und kann ohne jegliche Vorkenntnisse von fast jedermann benutzt werden.

 

Tipps & Tools
Auch das WebUI hat ein Versions management – etwas angepasst für crowd projects. Wenn ein Transcriber mit der zu bearbeitenden Seite fertig ist, setzt er den Edit Status auf „ready for review“, so dass sein Supervisor weiß, dass er nun gefragt ist.

Posted by Dirk Alvermann on

Wissen was man will

Ein Digitalisierungsprojekt mit Handschriftentexterkennung kann ganz unterschiedliche Zielsetzungen haben. Die reichen von der kritischen digitalen Edition über die Bereitstellung von Handschriften als Volltexte bis hin zur Erschließung großer Textkorpora über Key Word Spotting. Alle drei Zielsetzungen ermöglichen unterschiedliche Herangehensweisen, die großen Einfluss auf den technischen und personellen Aufwand haben.

In diesem Projekt interessieren nur die letzten beiden Zieldefinitionen, da eine kritische Edition nicht angestrebt wird, auch wenn die in diesem Projekt generierten Volltexte als Grundlage einer solchen dienen können.

Wir streben eine möglichst vollständige Erschließung des Inhalts der Handschriften durch automatische Texterkennung an. Die Ergebnisse sollen anschließend in der Digitalen Bibliothek Mecklenburg Vorpommern online gestellt werden. Dort steht zunächst eine Suche zur Verfügung, die die Treffer im image selbst anzeigt. Der Nutzer, der über ausreichend paläografische Kenntnisse verfügt, kann den Trefferkontext im image selbst erschließen oder auf eine moderne Volltextansicht umschalten, oder sogar nur diese benutzen.