Elisabeth Heigl


Posted by Elisabeth Heigl on

Gesamtmodell oder Spezialmodell

Ist dir in dem Diagramm zur Modellentwicklung aufgefallen, dass die Zeichenfehlerquote (CER) des letzten Modells wieder etwas schlechter wurde? Und das, obwohl wir den GT-Input deutlich gesteigert hatten? Wir hatten rund 43.000 mehr Wörter im Training aber eine Verschlechterung der durchschnittlichen CER von 2,79 auf 3,43 %. Erklären konnten wir uns das nicht so richtig.

An dieser Stelle kamen wir mit immer mehr GT doch nicht so richtig weiter. Wir mussten also unsere Trainings-Strategie ändern. Bisher hatten wir Gesamtmodelle trainiert, mit Schriften aus einem Gesamtzeitraum von 70 Jahren und von über 500 Schreibern.

Unser erster Verdacht fiel auf die Konzeptschriften, von denen wir schon wussten, dass die Maschine (LA und HTR) – wie wir auch – damit ihre Probleme hat. Beim nächsten Training schlossen wir deshalb diese Konzeptschriften aus und trainierten also nur mit „sauberen“ Kanzleischriften. Eine auffällige Verbesserung brachte das aber nicht: die Test Set-CER sank von 3,43 auf gerade einmal 3,31 %.

Im den darauf folgenden Trainings setzten wir dann zusätzlich auf eine chronologische Sequenzierung der Modelle. Wir teilten unser Material und erstellten zwei verschiedene Modelle: Spruchakten_M_3-1 (Spruchakten 1583-1627) und Spruchakten_M_4-1 (Spruchakten 1627-1653).

Mit den neuen Spezialmodellen erreichten wir tatsächlich wieder eine Verbesserung der HTR – wo das Gesamtmodell nicht mehr ausgereicht hatte. In den Testsets wiesen jetzt etliche Seiten eine Fehlerquote von unter 2 % auf. Im Fall des M_4-1er Modells blieben viele Seiten-CERs unter 1 % und zwei Seiten sogar fehlerfrei mit 0 %.

Ob ein Gesamt- oder Spezialmodell weiterhilft und die besseren Ergebnisse bringt, hängt natürlich sehr vom Umfang und der Zusammenstellung des Materials ab. Am Anfang, wenn du noch „Masse machen“ willst (viel hilft viel) lohnt sich ein Gesamtmodell. Wenn das aber an seine Grenzen kommt, solltest du die HTR nicht weiter „überfordern“ sondern stattdessen deine Modelle spezialisieren.

Posted by Elisabeth Heigl on

Transkribus als Hilfsmittel für Studenten und Professoren

In der diesjährigen 24-Stunden-Vorlesung der Universität Greifswald wird Transkribus und unser Digitalisierungsprojekt vorgestellt. Elisabeth Heigl, die als wissenschaftliche Mitarbeiterin in das Projekt eingebunden ist, wird einige der spannenden Kriminalfälle aus den Spruchakten der Juristenfakultät Greifswald vorstellen: ‚Hexerei, Unzucht, Mord und Totschlag in Pommern. Automatische Handschriftenerkennung und frühneuzeitliche Rechtsquellen‘. Wer Lust und Interesse an der Rechtsgeschichte hat, kann am 16.11.2019 um 12:00 ins Audimax (Rubenowstraße 1) in den Hörsaal 2 kommen.
Auf der Seite der Studierendenschaft könnt ihr euch auch das ganze Programm der 24-Stunden-Vorlesung noch als PDF anschauen.

Posted by Elisabeth Heigl on

Unsere HTR-Ergebnisse in der Digitalen Bibliothek MV

Wir präsentieren unsere Ergebnisse in der Digitalen Bibliothek Mecklenburg-Vorpommern. Hier findest du die Digitalisate mit der dazugehörigen Transkription.

Wenn du eine Akte ausgewählt hast, wie hier zum Beispiel die Spruchakte von 1586, siehst du mittig die erste Seite. In der Box darüber kannst du zur nächsten, zur vorherigen oder auch zu irgendeiner Seite deiner Wahl wechseln (1.) , den Doppelseitenmodus wählen (2.), das Bild rotieren (3.), in den Vollbildmodus wechseln (4.) und es vergrößern oder verkleinern (5.).

Auf der linken Seite kannst du verschiedene Ansichten auswählen. Du kannst dir beispielsweise statt nur der einen Seite alle Bilder auf einmal anzeigen lassen (Seitenvorschau) oder du kannst gleich die Transkription des Textes in der Volltext-Anzeige lesen.

Wenn du in der Struktur der Akte navigieren möchtest, musst du zuerst in der untersten linken Inhalt-Box über das kleine Plus-Symbol dir den Strukturbaum der Akte anzeigen lassen. Dort kannst du dann ein Datum auswählen.

Suchst du einen bestimmten Namen, einen Ort oder einen anderen Begriff? Dann trage diesen einfach in das linke Suchfeld („Suche in: Spruchakte 1568“) ein. Wenn der Begriff in der Akte vorkommt, werden die „Volltexttreffer“, d. h. sämtliche Stellen an denen dein Suchbegriff vorkommt, angegeben.

Wenn du hier einen der Treffer auswählst, erscheint dein Suchbegriff auf dem Digitalisat gelb markiert. Das Highlighten der Suchergebniss funktioniert vorläufig nur auf dem Digitalisat, noch nicht im Volltext.

Tipps & Tools
Lass dir die Volltexttreffer in einem neuen Tab (über die rechte Maustaste) anzeigen. Das vor- und zurücknavigieren ist in der Digitalen Bibliothek leider noch etwas umständlich. So kannst du sicher gehen, dass du immer wieder auf deine vorherige Auswahl zurückkommst.

Posted by Elisabeth Heigl on

Viel hilft viel – wie komme ich an immer mehr GT?

Release 1.7.1

Damit das Modell die Vorlagen möglichst genau wiedergeben kann, braucht es zum Lernen möglichst viel Ground Truth; viel hilft viel. Aber wie kommt man an möglichst viel GT?

Es ist ganz schön zeitaufwändig viel GT zu produzieren. Als wir am Anfang unseres Projektes und des Modelltrainings standen, haben wir in einer Stunde gerade einmal 1 bis 2 Seiten geschafft. Das sind durchschnittlich 150 bis 350 Wörter pro Stunde.

Fünf Monate später hatten wir aber schon knapp 250.000 Wörter im Training. Wir hatten weder eine Heerschar von Transcribern noch musste einer Tag und Nacht GT schreiben. Alleine die exponentielle Verbesserung der Modelle selbst ermöglichte es uns immer mehr GT zu produzieren:

Je mehr GT du investierst, desto besser wird dein Modell. Je besser dein Modell liest, desto leichter wird das Schreiben von GT. Du musst jetzt nämlich nicht mehr selbst schreiben, sondern lediglich die HTR korrigieren. Mit Modellen die eine durchschnittliche Fehlerquote unter 8 % aufweisen, haben wir ca. 6 Seiten pro Stunde geschafft.

Je besser das Modell liest, desto mehr GT kann produziert werden und je mehr GT vorhanden ist, desto besser wird das Modell. Was ist das Gegenteil von einem Teufelskreis?

Posted by Elisabeth Heigl on

Viel hilft viel – wieviel GT muss ich investieren?

Release 1.7.1

Wie schon gesagt: Ground Truth ist das A und O bei der Erstellung von HTR-Modellen.

GT ist die korrekte und maschinenlesbare Abschrift der Handschrift mit deren Hilfe die Maschine das „Lesen“ lernt. Je mehr die Maschine „üben“ kann, desto besser wird sie. Je mehr Ground Truth wir also haben desto geringer werden die Fehlerquoten. Viel hilft also auch viel.

Natürlich hängt die Menge immer vom konkreten Anwendungsfall ab. Wenn wir mit wenigen, gut lesbaren Schriften arbeiten, genügt in der Regel wenig GT, um ein solide arbeitendes Modell zu trainieren. Sind die Schriften aber sehr unterschiedlich, weil wir es mit einer großen Anzahl verschiedener Schreiber zu tun haben, wird der Aufwand höher. Das heißt, in solchen Fällen müssen wir mehr GT bereitstellen um gute HTR-Modelle zu erzeugen.

In den Spruchakten finden  wir besonders viele unterschiedliche Schreiber. Darum wurde hier auch sehr viel GT erzeugt um die Modelle zu trainieren. An unseren Spruchaktenmodellen (Spruchakten_M_2-1 bis 2-11) lässt sich deutlich ablesen, wie schnell die Fehlerquote tatsächlich zurückgeht, wenn möglichst viel GT investiert wird. Ganz grob lässt sich sagen, dass bei Verdoppelung der Menge des GT im Training (words in trainset) die Fehlerquote (CER Page) des Modells jeweils halbiert wird.

In unseren Beispielen konnten wir beobachten, dass wir die Modelle mit mindestens 50.000 Wörtern GT trainieren müssen, um gute Ergebnisse zu erzielen. Mit 100.000 Wörtern im Training kann man bereits ausgezeichnete HTR-Modelle erhalten.

Posted by Elisabeth Heigl on

Kollaboration – User Management

Release 1.7.1

Die Transkribus-Plattform ist auf Kollaboration angelegt, das heißt, dass viele Nutzer an einer Collection und sogar an einem Document gleichzeitig arbeiten können. Eventuelle Kollisionen sollten bei ein wenig Organisationsgeschick vermeidbar sein.

Die beiden wichtigsten Elemente, die eine organisierte Kollaboration ermöglichen, sind das User Manangement und das Versionsmanagement in Transkribus. Das User Management bezieht sich ausdrücklich auf Collections. Derjenige, der eine Collection anlegt, ist immer ihr „owner“, das heißt, er hat volle Rechte, einschließlich des Rechts, die ganze Collection zu löschen. Er kann anderen Nutzern Zugriff auf die Collection gewähren und ihnen dabei Rollen zuweisen, die gestaffelten Rechten entsprechen:

Owner – Editor – Transcriber

Es macht immer Sinn, wenn mehr als ein Mitglied des Teams „owner“ einer Collection ist. Bei uns sind alle übrigen „editors“. Die Rolle „transcriber“ zu vergeben, ist vor allem dann sinnvoll, wenn man crowd-projects betreibt, wo Freiwillige oder Ehrenamtliche tatsächlich nichts anders tun, als Texte abzuschreiben oder zu taggen. Für solche „transcriber“ ist der Zugriff über das WebUI, mit seinen auf diese Rolle abgestimmten Funktionsumfang ideal geeignet.

Posted by Elisabeth Heigl on

Transkriptionsrichtlinien

In den Abschriften für den Ground Truth wird die litterale oder diplomatische Transkription angestrebt. Das bedeutet, dass wir bei der Transkription möglichst keine Regulierungen hinsichtlich der Zeichen vornehmen. Die Maschine muss anhand einer möglichst zeichengetreuen Abschrift lernen, um selbst später genau wiedergeben zu können, was auf dem Blatt zu lesen ist. So übernehmen wir beispielsweise konsequent die vokalische und konsonantische Verwendung von „u“ und „v“ der Vorlage. An das Vrtheill vndt die Vniusersitet kann man sich erstaunlich rasch gewöhnen.

Nur in den folgenden Ausnahmen sind wir von der litteralen Transkription abgewichen und haben Zeichen reguliert. Auf die Behandlung von Abbreviaturen gehen wir noch einmal gesondert ein.

Das ſogennante Lang-s und das Schluß-s oder auch runde S können wir nicht litteral übernehmen, weil wir weitgehend auf das Antiqua-Zeichensystem angewiesen sind. Daher übertragen wir beide Formen als „s“.

Umlaute geben wir so wieder, wie sie erscheinen. Diakritische Zeichen werden übernommen, es sei denn das moderne Zeichensystem erlaubt dies nicht; wie im Fall des „a“ mit ‚diakritischem e‘, das zum „ä“ wird. Diphthonge werden ebenfalls übernommen, das „æ″ allerdings als ae″.

Das Ypsilon wird in vielen Handschriften als „ÿ″ geschrieben. Wir transkribieren es aber in der Regel als einfaches y″. Nur wenn es paläografisch begründet ist, differenzieren wir zwischen „y“ und dem ähnlich verwendeten „ij“.

Auch hinsichtlich der Satz- und Sonderzeichen gibt es einige Ausnahmen von der litteralen Transkription: In den Handschriften werden Klammern auf ganz unterschiedliche Weisen dargestellt. Wir verwenden hier aber einheitlich die modernen Klammerzeichen (…). Auch die Worttrennungszeichen am Zeilenende weisen eine hohe Varianz auf, weshalb wir sie ausschließlich mit einem „¬“ wiedergeben. Das im modernen Gebrauch übliche Kupplungszeichen – der Bindestrich – kommt in den Handschriften kaum vor. Stattdessen finden wir bei Kupplung zweier Wörter häufig das „=“, das wir mit einem einfachen Bindestrich wiedergeben.

Die Komma- und Punktsetzung übernehmen wir so wie sie erscheint – sofern überhaupt vorhanden. Endet der Satz nicht mit einem Punkt setzen wir auch keinen.

Groß- und Kleinschreibung wird unverändert nach der Vorlage übernommen. Häufig kann aber nicht eindeutig unterschieden werden ob es sich um einen Groß- oder Kleinbuchstaben handelt. Das betrifft weitgehend schreiberunabhängig insbesondere das D/d, das V/v und auch das Z/z. Im Zweifelsfall gleichen wir dann den fraglichen Buchstaben mit seiner sonstigen Verwendung im Text ab. In Komposita können Großbuchstaben innerhalb eines Wortes vorkommen – auch sie werden getreu nach der Vorlage transkribiert.

Posted by Elisabeth Heigl on

Wie wir die Spruchakten scannen

Die Seitenoberflächen der Spruchakten sind in der Regel uneben. Deshalb verwenden wir beim Scannen immer eine Glasplatte. Damit können zumindest grobe Knicke und Falten geglättet und so auch ein wenig die Schrift begradigt werden.

Im Gegensatz zum üblichen Scanverfahren bei Büchern scannen wir jede Seite einer Akte einzeln. Dabei haben wir die uns zur Verfügung stehenden Möglichkeiten der nachträglichen Layoutbearbeitung von Scans bewusst ausgeschlossen. Frühere Digitalisierungsprojekte haben gezeigt, dass diese umständlich und fehleranfällig sein können und den Workflow schnell durcheinanderbringen. Weil aber eine nachträgliche Layoutbearbeitung der Bilder ausgeschlossen wurde, müssen die Scans von Beginn an präsentabel produziert werden.

Deshalb nutzen wir beim Scannen den sogenannten „Crop-Modus“ (UCC-Projekteinstellungen). Damit wird der Blattrand der Vorlage automatisch erfasst und als Rahmen des gescannten Bildes (Image) gesetzt. So entsteht ein Image, das kaum schwarzen Rand aufweist. Eine mögliche ‚Schieflage‘ des Blattes kann dabei bis zu 40° ausgeglichen werden. Das führt zu verlässlich ausgerichteten Images und erleichtert auch die Handhabung beim Seitenwechsel während des Scannens.

Damit der Crop-Modus die zu scannende Seite als solche erkennt, darf auch nur diese zu sehen sein. Das bedeutet, dass alles andere, sowohl die jeweils gegenüberliegende Seite als auch die Blätter darunter, schwarz abgedeckt werden müssen. Dazu verwenden wir zwei handelsübliche schwarze Fotokartonblätter (A3 oder A2).

Bei den Spruchakten finden sich häufig Blätter, bei denen die Verschlusssiegel durch Ausschneiden entfernt wurden. Diese Seiten müssen jeweils zusätzlich mit einem Blatt unterlegt werden (farblich möglichst nah an der Vorlage), dass der Crop-Modus den Rand komplettiert, damit beim Scan nicht Bestandteile des Blattes abgeschnitten werden.

Wir können beim Scannen der Spruchakten also nicht einfach „durchblättern“ und Scans auslösen, sondern jedes einzelne Image muss im Prinzip vorbereitet werden. So ersparen wir uns aber auch eine eventuelle aufwendige Nachbearbeitung der Images. Die durchschnittliche Scangeschwindigkeit bei diesem Verfahren beträgt rund 100 Seiten pro Stunde.

Posted by Elisabeth Heigl on

Transkriptionspraxis – erste Entscheidungen

In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.

Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.

Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.

Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.

Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.

Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.

Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.

Posted by Elisabeth Heigl on

Projektworkflow und Informationssystem

Der Weg von der Akte im Archiv zu ihrer digitalen und HTR-basierten Präsentation auf der Onlineplattform führt über diverse Station. Diese Schritte stellen den Gesamtworkflow des Projekts dar und basieren auf einer breiten technischen Infrastruktur. Der Workflow unseres auf drei Standorte verteilten Projektes besteht grob aus sechs Hauptstationen:

  1. Vorbereitungen der Akten (reastauratorisch, archiviarisch, digital)
  2. Scannen
  3. Anreicherung mit Struktur- und Metadaten
  4. Bereitstellung für Transkribus
  5. Automatische Handschriftenerkennung (HTR)
  6. Onlinepräsentation in der Digitalen BibliothekMecklenburg-Vorpommern

Es hat sich als hilfreich erwiesen, dass wir nicht nur die einzelnen Schritte im Vorfeld festgelegt haben, sondern auch von Beginn an die Verantwortlichen, d.h. Experten für die einzelnen Aufgaben sowie Koordinatoren für die Stations- und Standortübergreifenden Schritte. Dadurch ist allen Beteiligten immer die jeweilige Ansprechpartnerin bekannt und können so offene Fragen leichter beantwortet und eventuell auftretende Probleme effizienter gelöst werden.

Insbesondere bei der Digitalisierung der Spruchakten sind wir von Beginn an nicht chronologisch vorgegangen. Wir haben den Bestand also nicht von vorne bis hinten „durchgescannt“. Stattdessen haben wir zunächst einzelne, repräsentative Bände zwischen 1580 und 1675 ausgewählt und bearbeitet, um zunächst starke HTR-Modelle zu erstellen. Erst anschließend wurden die „Lücken“ gefüllt. Eine fortlaufenden Dokumentation des Projektfortschritts mit seinen einzelnen Bereichen und Etappen ist hier wichtig, damit es nicht unübersichtlich wird. Dafür gibt es viele Möglichkeiten.

Wir führen – mittlerweile sehr bunte – Exceltabellen über den Bearbeitungsstand der verschiedenen Bestände. Sie bilden aber nur Teilprozesse ab und sind zudem nur den Koordinatoren zugänglich, die sie pflegen und die Projektfortschritte in ihrem Bereich überwachen müssen. Eine weitere Möglichkeit stellt der #Goobi-Workflow dar. Hier können neben den Arbeitsschritten, die ohnehin in Goobi stattfinden frei auch weitere Schritte als Aufgaben festgelegt werden, die nicht im Zusammenhang mit Goobi stehen müssen. Sie können wie die übrigen Aufgaben auch angenommen und abgeschlossen werden, und so den Projektfortschritt abbilden. Voraussetzung ist hier aber, dass alle Projektbeteiligten mit diesem Workflowsystem vertraut sein müssen. Wo das nicht so ist, muss ein „externes“ Informationssystem gewählt werden, auf das alle zugreifen können.

Die drei Standorte unseres Projekts führen daher gemeinsam ein Wiki (E-Collaboration).