Elisabeth Heigl


Posted by Elisabeth Heigl on

Transkribus in Chicago

Beim diesjährigen Treffen der ‚Social Scienes History Association‘ (SSHA) in Chicago wird auch Transkribus vorgestellt. Günter Mühlberger wird in seinem Beitrag nicht nur die Möglichkeiten von Transkribus aufzeigen, sondern stellt auch erste Ergebnisse und Erfahrungen aus der Verarbeitung der Katasterprotokolle des Tiroler Landesarchivs und  unserem Digitalisierungsprojekt vor. Besondere Aufmerksamkeit wird er dabei auf das Training von HTR-Modellen und die Möglichkeiten des Keyword Spotting richten. Der Vortrag findet am 21.11. ab 11:00 unter dem Titel: ‚Handwritten Text Recognition and Keyword Spotting as Research Tools for Social Science and History‘ in der Session 31 (Emerging Methods: Computation/Spatial Econometrics) statt.

Posted by Elisabeth Heigl on

Warum Testsets wichtig sind und wie man sie anlegt, #2

Release 1.7.1

Wie geht man nun praktisch vor, um Testsets anzulegen?

Da kann letztlich jeder seinen eigenen Weg finden. In unserem Projekt werden die Seiten für die Testsets bereits während der Erstellung des GT ausgewählt. Sie erhalten einen besonderen edit status (Final) und werden später in separaten Dokumenten zusammengefasst. So ist gesichert, dass sie nicht aus Versehen ins Training geraten. Immer wenn neuer GT für das künftige Training erstellt wird, wird also auch zugleich das Material für das Testset erweitert. Beide Sets wachsen also „organisch“ und proportional.

Für das systematische Training erstellen wir mehrere Documents, die wir als „Testsets“ bezeichnen und die jeweils auf eine Spruchakte (einen Jahrgang) bezogen sind. Zum Beispiel erstellen wir für das Document der Spruchakte 1594 also ein „Testset 1594“. Hierein legen wir repräsentativ ausgewählte Images, die möglichst die Schreibervielfalt abbilden sollen. Im „Mutter-Dokument“ markieren wir die für das Testset ausgewählten Seiten als „Final“, um sicher zu gehen, dass sie dort auch weiterhin nicht bearbeitet werden. Wir haben nicht für jedes Jahr ein eigenes Testet erstellt, sondern sind in Abhängigkeit des Materials in Fünfjahresschritten vorgegangen.

Da ein Modell häufig über viele Durchgänge trainiert wird, hat dieses Vorgehen auch den Vorteil, dass das Testset immer repräsentativ bleibt. Die CERs der unterschiedlichen Versionen eines Modells lassen sich also stets vergleichen und in der Entwicklung beobachten, weil der Test immer auf demselben (oder erweiterten) Set ausgeführt wird. So ist es leichter die Fortschritte eines Modells zu beurteilen und die weitere Trainingsstrategie sinnvoll anzupassen.

Im Übrigen wird in Transkribus nach jedem Training das dafür verwendete Testset in der betroffenen Kollektion selbständig gespeichert. Man kann also immer wieder darauf zurückgreifen.

Es gibt auch die Möglichkeit, ein Testset erst kurz vor der Durchführung des Trainigs auszuwählen und einfach aus dem Trainingsmaterial einzelne Seiten der Dokumente dem Testset zuzuordnen. Das mag für den Einzelfall eine schnelle und pragmatische Lösung sein, ist für den planmäßigen Aufbau mächtiger Modelle aber nicht geeignet.

Posted by Elisabeth Heigl on

Unsere HTR-Ergebnisse in der Digitalen Bibliothek MV

Wir präsentieren unsere Ergebnisse in der Digitalen Bibliothek Mecklenburg-Vorpommern. Hier findest du die Digitalisate mit der dazugehörigen Transkription.

Wenn du eine Akte ausgewählt hast, wie hier zum Beispiel die Spruchakte von 1586, siehst du mittig die erste Seite. In der Box darüber kannst du zur nächsten, zur vorherigen oder auch zu irgendeiner Seite deiner Wahl wechseln (1.) , den Doppelseitenmodus wählen (2.), das Bild rotieren (3.), in den Vollbildmodus wechseln (4.) und es vergrößern oder verkleinern (5.).

Auf der linken Seite kannst du verschiedene Ansichten auswählen. Du kannst dir beispielsweise statt nur der einen Seite alle Bilder auf einmal anzeigen lassen (Seitenvorschau) oder du kannst gleich die Transkription des Textes in der Volltext-Anzeige lesen.

Wenn du in der Struktur der Akte navigieren möchtest, musst du zuerst in der untersten linken Inhalt-Box über das kleine Plus-Symbol dir den Strukturbaum der Akte anzeigen lassen. Dort kannst du dann ein Datum auswählen.

Suchst du einen bestimmten Namen, einen Ort oder einen anderen Begriff? Dann trage diesen einfach in das linke Suchfeld („Suche in: Spruchakte 1568“) ein. Wenn der Begriff in der Akte vorkommt, werden die „Volltexttreffer“, d. h. sämtliche Stellen an denen dein Suchbegriff vorkommt, angegeben.

Wenn du hier einen der Treffer auswählst, erscheint dein Suchbegriff auf dem Digitalisat gelb markiert. Das Highlighten der Suchergebniss funktioniert vorläufig nur auf dem Digitalisat, noch nicht im Volltext.

Tipps & Tools
Lass dir die Volltexttreffer in einem neuen Tab (über die rechte Maustaste) anzeigen. Das vor- und zurücknavigieren ist in der Digitalen Bibliothek leider noch etwas umständlich. So kannst du sicher gehen, dass du immer wieder auf deine vorherige Auswahl zurückkommst.

Posted by Elisabeth Heigl on

Warum Testsets wichtig sind und wie man sie anlegt, #1

Release 1.7.1

Wenn wir überprüfen wollen, wieviel ein Modell im Training gelernt hat, müssen wir es auf die Probe stellen. Das tun wir mit Hilfe von möglichst genau definierten Testsets. Testsets enthalten – wie das Trainingsset – ausschließlich GT. Allerdings stellen wir sicher, dass dieser GT niemals für das Training des Modells verwendet wurde. Das Modell „kennt“ dieses Material also nicht. Das ist die wichtigste Eigenschaft von Testsets. Denn eine Textseite, die schon einmal als Trainingsmaterial diente, wird vom Modell immer besser gelesen werden, als eine, mit der es noch nicht „vertraut“ ist. Das kann man experimentell leicht überprüfen. Will man also valide Aussagen über die CER und WER erhalten, benötigt man „nicht korrumpierte“ Testsets.

Fast genauso wichtig ist, dass ein Testset repräsentativ ist. Solange man ein HTR-Modell für einen einzigen Schreiber oder eine individuelle Handschrift trainiert, ist das nicht schwer – es ist ja schließlich immer dieselbe Hand. Sobald mehrere Schreiber im Spiel sind, muss darauf geachtet werden, dass möglichst alle individuellen Handschriften die im Trainingsmaterial verwendet werden, auch im Testset enthalten sind. Je mehr unterschiedliche Handschriften in einem Modell trainiert werden desto größer werden die Testsets.

Der Umfang des Testsets ist ein weiterer Faktor, der die Repräsentativität beeinflusst. In der Regel sollte ein Testset 5-10% des Umfangs des Trainingsmaterials enthalten. Diese Faustregel sollte aber immer an die spezifischen Anforderungen des Materials und der Trainingsziele angepasst werden.

Um das einmal an zwei Beispielen zu erläutern: Unser Modell für die Spruchakten von 1580 bis 1627 wurde mit einem Trainingsset von fast 200.000 Wörtern trainiert. Das Testset beinhaltet 44.000 Wörter. Das ist natürlich ein sehr hoher Anteil von fast 20%. Er ist darauf zurückzuführen, dass in diesem Modell etwa 300 unterschiedliche Schreiberhände trainiert wurden, die im Testset auch repräsentiert sein müssen. – In unserem Modell für die Assessorenvoten des Wismarer Tribunals sind etwa 46.000 Wörter im Trainingsset enthalten, das Testset umfasst lediglich 2.500 Wörter, also ein Anteil von etwa 5%. Wir haben es hier allerdings auch nur mit 5 verschiedenen Schreiberhänden zu tun. Für die Repräsentativität des Testsets genügt das Material also.

Posted by Elisabeth Heigl on

Word Error Rate & Character Error Rate – woran sich ein Modell messen lässt

Release 1.7.1

Die Word Error Rate (WER) und Character Error Rate (CER) zeigen an, wie hoch der Textanteil einer Handschrift ist, den das angewendete HTR-Modell nicht korrket gelesen hat. Eine CER von 10% bedeutet also, dass jedes zehnte Zeichen (und das sind nicht nur Buchstaben, sondern auch Interpunktionen, Leerzeichen etc.) nicht richtig erkannt wurde. Die Accuracy Rate läge demnach bei 90 %. Von einem guten HTR-Modell kann man sprechen, wenn 95% einer Handschrift korrekt erkannt wurde, die CER also nicht über 5% liegt. Das ist in etwa auch der Wert, den man heute mit „schmutziger“ OCR bei Frakturschriften erziehlt. Im Übrigen entspricht eine Accuracy Rate von 95% auch den Erwartungen, die in den DFG-Praxisregeln Digitalisierung formuliert sind.

Selbst bei einer guten CER kann die Word Error Rate hoch sein. Die WER zeigt, wie gut die wortgenaue Wiedergabe des Textes ist. In Aller Regel liegt die WER um das drei bis vierfache höher als die CER und verhält sich proportional zu ihr. Der Wert der WER ist nicht besonders aussagekräftig für die Qualität des Modells, denn anders als Zeichen, sind Wörter unterschiedlich lang und gestatten keine gleichermaßen eindeutigen Vergleich (ein Wort ist schon falsch erkannt, wenn ein Buchstabe darin falsch ist). Darum wird sie auch seltener benutzt, um den Wert eines Modells zu charakterisieren.

Die WER gibt aber Hinweise auf einen wichtigen Aspekt. Denn wenn ich eine Texterkennung mit dem Ziel durchführe, später eine Volltextsuche in meinem Dokuemnt durchzuführen, dann zeigt mir die WER genau die Erfolgsquote, mit der ich bei meiner Suche rechnen kann. Gesucht wird ja nach Worten oder Wortteilen. Egal also wie gut meine CER ist: bei einer WER von 10% kann potentiell jeder zehnte Suchbegriff nicht gefunden werden.

 

Tipps & Tools
Am einfachsten lässt sich die CER und WER mithilfe der Compare Funktion unter Tools anzeigen. Hier könnt ihr bei einer oder mehreren Seiten eine Ground Truth Version mit einem HTR-Text vergleichen und so die Qualität des Modells einschätzen.

Posted by Elisabeth Heigl on

Viel hilft viel – wie komme ich an immer mehr GT?

Release 1.7.1

Damit das Modell die Vorlagen möglichst genau wiedergeben kann, braucht es zum Lernen möglichst viel Ground Truth; viel hilft viel. Aber wie kommt man an möglichst viel GT?

Es ist ganz schön zeitaufwändig viel GT zu produzieren. Als wir am Anfang unseres Projektes und des Modelltrainings standen, haben wir in einer Stunde gerade einmal 1 bis 2 Seiten geschafft. Das sind durchschnittlich 150 bis 350 Wörter pro Stunde.

Fünf Monate später hatten wir aber schon knapp 250.000 Wörter im Training. Wir hatten weder eine Heerschar von Transcribern noch musste einer Tag und Nacht GT schreiben. Alleine die exponentielle Verbesserung der Modelle selbst ermöglichte es uns immer mehr GT zu produzieren:

Je mehr GT du investierst, desto besser wird dein Modell. Je besser dein Modell liest, desto leichter wird das Schreiben von GT. Du musst jetzt nämlich nicht mehr selbst schreiben, sondern lediglich die HTR korrigieren. Mit Modellen die eine durchschnittliche Fehlerquote unter 8 % aufweisen, haben wir ca. 6 Seiten pro Stunde geschafft.

Je besser das Modell liest, desto mehr GT kann produziert werden und je mehr GT vorhanden ist, desto besser wird das Modell. Was ist das Gegenteil von einem Teufelskreis?

Posted by Elisabeth Heigl on

Viel hilft viel – wieviel GT muss ich investieren?

Release 1.7.1

Wie schon gesagt: Ground Truth ist das A und O bei der Erstellung von HTR-Modellen.

GT ist die korrekte und maschinenlesbare Abschrift der Handschrift mit deren Hilfe die Maschine das „Lesen“ lernt. Je mehr die Maschine „üben“ kann, desto besser wird sie. Je mehr Ground Truth wir also haben desto geringer werden die Fehlerquoten. Viel hilft also auch viel.

Natürlich hängt die Menge immer vom konkreten Anwendungsfall ab. Wenn wir mit wenigen, gut lesbaren Schriften arbeiten, genügt in der Regel wenig GT, um ein solide arbeitendes Modell zu trainieren. Sind die Schriften aber sehr unterschiedlich, weil wir es mit einer großen Anzahl verschiedener Schreiber zu tun haben, wird der Aufwand höher. Das heißt, in solchen Fällen müssen wir mehr GT bereitstellen um gute HTR-Modelle zu erzeugen.

In den Spruchakten finden  wir besonders viele unterschiedliche Schreiber. Darum wurde hier auch sehr viel GT erzeugt um die Modelle zu trainieren. An unseren Spruchaktenmodellen (Spruchakten_M_2-1 bis 2-11) lässt sich deutlich ablesen, wie schnell die Fehlerquote tatsächlich zurückgeht, wenn möglichst viel GT investiert wird. Ganz grob lässt sich sagen, dass bei Verdoppelung der Menge des GT im Training (words in trainset) die Fehlerquote (CER Page) des Modells jeweils halbiert wird.

In unseren Beispielen konnten wir beobachten, dass wir die Modelle mit mindestens 50.000 Wörtern GT trainieren müssen, um gute Ergebnisse zu erzielen. Mit 100.000 Wörtern im Training kann man bereits ausgezeichnete HTR-Modelle erhalten.

Posted by Elisabeth Heigl on

Kollaboration – User Management

Release 1.7.1

Die Transkribus-Plattform ist auf Kollaboration angelegt, das heißt, dass viele Nutzer an einer Collection und sogar an einem Document gleichzeitig arbeiten können. Eventuelle Kollisionen sollten bei ein wenig Organisationsgeschick vermeidbar sein.

Die beiden wichtigsten Elemente, die eine organisierte Kollaboration ermöglichen, sind das User Manangement und das Versionsmanagement in Transkribus. Das User Management bezieht sich ausdrücklich auf Collections. Derjenige, der eine Collection anlegt, ist immer ihr „owner“, das heißt, er hat volle Rechte, einschließlich des Rechts, die ganze Collection zu löschen. Er kann anderen Nutzern Zugriff auf die Collection gewähren und ihnen dabei Rollen zuweisen, die gestaffelten Rechten entsprechen:

Owner – Editor – Transcriber

Es macht immer Sinn, wenn mehr als ein Mitglied des Teams „owner“ einer Collection ist. Bei uns sind alle übrigen „editors“. Die Rolle „transcriber“ zu vergeben, ist vor allem dann sinnvoll, wenn man crowd-projects betreibt, wo Freiwillige oder Ehrenamtliche tatsächlich nichts anders tun, als Texte abzuschreiben oder zu taggen. Für solche „transcriber“ ist der Zugriff über das WebUI, mit seinen auf diese Rolle abgestimmten Funktionsumfang ideal geeignet.

Posted by Elisabeth Heigl on

Transkriptionsrichtlinien

In den Abschriften für den Ground Truth wird die litterale oder diplomatische Transkription angestrebt. Das bedeutet, dass wir bei der Transkription möglichst keine Regulierungen hinsichtlich der Zeichen vornehmen. Die Maschine muss anhand einer möglichst zeichengetreuen Abschrift lernen, um selbst später genau wiedergeben zu können, was auf dem Blatt zu lesen ist. So übernehmen wir beispielsweise konsequent die vokalische und konsonantische Verwendung von „u“ und „v“ der Vorlage. An das Vrtheill vndt die Vniusersitet kann man sich erstaunlich rasch gewöhnen.

Nur in den folgenden Ausnahmen sind wir von der litteralen Transkription abgewichen und haben Zeichen reguliert. Auf die Behandlung von Abbreviaturen gehen wir noch einmal gesondert ein.

Das ſogennante Lang-s und das Schluß-s oder auch runde S können wir nicht litteral übernehmen, weil wir weitgehend auf das Antiqua-Zeichensystem angewiesen sind. Daher übertragen wir beide Formen als „s“.

Umlaute geben wir so wieder, wie sie erscheinen. Diakritische Zeichen werden übernommen, es sei denn das moderne Zeichensystem erlaubt dies nicht; wie im Fall des „a“ mit ‚diakritischem e‘, das zum „ä“ wird. Diphthonge werden ebenfalls übernommen, das „æ″ allerdings als ae″.

Das Ypsilon wird in vielen Handschriften als „ÿ″ geschrieben. Wir transkribieren es aber in der Regel als einfaches y″. Nur wenn es paläografisch begründet ist, differenzieren wir zwischen „y“ und dem ähnlich verwendeten „ij“.

Auch hinsichtlich der Satz- und Sonderzeichen gibt es einige Ausnahmen von der litteralen Transkription: In den Handschriften werden Klammern auf ganz unterschiedliche Weisen dargestellt. Wir verwenden hier aber einheitlich die modernen Klammerzeichen (…). Auch die Worttrennungszeichen am Zeilenende weisen eine hohe Varianz auf, weshalb wir sie ausschließlich mit einem „¬“ wiedergeben. Das im modernen Gebrauch übliche Kupplungszeichen – der Bindestrich – kommt in den Handschriften kaum vor. Stattdessen finden wir bei Kupplung zweier Wörter häufig das „=“, das wir mit einem einfachen Bindestrich wiedergeben.

Die Komma- und Punktsetzung übernehmen wir so wie sie erscheint – sofern überhaupt vorhanden. Endet der Satz nicht mit einem Punkt setzen wir auch keinen.

Groß- und Kleinschreibung wird unverändert nach der Vorlage übernommen. Häufig kann aber nicht eindeutig unterschieden werden ob es sich um einen Groß- oder Kleinbuchstaben handelt. Das betrifft weitgehend schreiberunabhängig insbesondere das D/d, das V/v und auch das Z/z. Im Zweifelsfall gleichen wir dann den fraglichen Buchstaben mit seiner sonstigen Verwendung im Text ab. In Komposita können Großbuchstaben innerhalb eines Wortes vorkommen – auch sie werden getreu nach der Vorlage transkribiert.

Posted by Elisabeth Heigl on

Wie wir die Spruchakten scannen

Die Seitenoberflächen der Spruchakten sind in der Regel uneben. Deshalb verwenden wir beim Scannen immer eine Glasplatte. Damit können zumindest grobe Knicke und Falten geglättet und so auch ein wenig die Schrift begradigt werden.

Im Gegensatz zum üblichen Scanverfahren bei Büchern scannen wir jede Seite einer Akte einzeln. Dabei haben wir die uns zur Verfügung stehenden Möglichkeiten der nachträglichen Layoutbearbeitung von Scans bewusst ausgeschlossen. Frühere Digitalisierungsprojekte haben gezeigt, dass diese umständlich und fehleranfällig sein können und den Workflow schnell durcheinanderbringen. Weil aber eine nachträgliche Layoutbearbeitung der Bilder ausgeschlossen wurde, müssen die Scans von Beginn an präsentabel produziert werden.

Deshalb nutzen wir beim Scannen den sogenannten „Crop-Modus“ (UCC-Projekteinstellungen). Damit wird der Blattrand der Vorlage automatisch erfasst und als Rahmen des gescannten Bildes (Image) gesetzt. So entsteht ein Image, das kaum schwarzen Rand aufweist. Eine mögliche ‚Schieflage‘ des Blattes kann dabei bis zu 40° ausgeglichen werden. Das führt zu verlässlich ausgerichteten Images und erleichtert auch die Handhabung beim Seitenwechsel während des Scannens.

Damit der Crop-Modus die zu scannende Seite als solche erkennt, darf auch nur diese zu sehen sein. Das bedeutet, dass alles andere, sowohl die jeweils gegenüberliegende Seite als auch die Blätter darunter, schwarz abgedeckt werden müssen. Dazu verwenden wir zwei handelsübliche schwarze Fotokartonblätter (A3 oder A2).

Bei den Spruchakten finden sich häufig Blätter, bei denen die Verschlusssiegel durch Ausschneiden entfernt wurden. Diese Seiten müssen jeweils zusätzlich mit einem Blatt unterlegt werden (farblich möglichst nah an der Vorlage), dass der Crop-Modus den Rand komplettiert, damit beim Scan nicht Bestandteile des Blattes abgeschnitten werden.

Wir können beim Scannen der Spruchakten also nicht einfach „durchblättern“ und Scans auslösen, sondern jedes einzelne Image muss im Prinzip vorbereitet werden. So ersparen wir uns aber auch eine eventuelle aufwendige Nachbearbeitung der Images. Die durchschnittliche Scangeschwindigkeit bei diesem Verfahren beträgt rund 100 Seiten pro Stunde.