Category Archives

67 Articles

Posted by Anna Brandt on

Transkribieren ohne Layoutanalyse?

Release 1.10.1

Wir haben in vorherigen Posts immer wieder betont wie wichtig die LA ist. Ohne sie hat ein HTR-Modell, und mag es noch so gut sein, keine Chance einen Text vernünftig zu transkribieren. Die Schritte von automatischer LA (oder einem P2PaLA-Model) und HTR löst man normalerweise getrennt voneinander aus. Jetzt ist uns aufgefallen, dass wenn ein HTR-Modell über eine komplett neue bzw. unbearbeitete Seite läuft, das Programm selbstständig eine LA ausführt.

Diese LA läuft mit den Default-Einstellungen von CITLab-Advanced LA. Dies bedeutet bei den reinen Seiten weniger Linien zu mergen und es werden zum Teil mehr als eine Textregion erkannt.

Es bedeutet jedoch auch, dass nur horizontale Schrift erkannt wird. Dasselbe Problem war bei uns auch bei unseren P2PaLA-Modellen aufgefallen. Alles was schräg steht oder gar vertikal kann so nicht erkannt werden. Dafür muss die LA manuell ausgelöst werden, mit der Einstellung ‚Text Orientation‘ auf ‚Heterogeneous‘.

Die HTR Ergebnisse sind bei dieser Methode interessanterweise besser als bei einer HTR die über eine korrigierte Layoutanalyse gelaufen ist. Wir haben dazu an bei einigen Seiten die CER ausgerechnet.

Damit ist diese Methode eine sehr gute Alternative, vor allem bei Seiten mit unkompliziertem Layout. Man spart Zeit, da man nur einen Vorgang auslösen muss und hat am Ende ein besseres Ergebnis.

Posted by Elisabeth Heigl on

Advanced Compare

Release 1.10.1

Im Gegensatz zur Visualisierung der Fehler über das Tool „Compare Text Versions“ gibt uns der gewöhnliche „Compare“ die gleichen Validierungsergebnisse als Zahlenwerte.

Hier erhalten wir neben der Wortfehlerquote auch die etwas aussagekräftigere Zeichenfehlerquote (CER). Außerdem können wir im „Advanced Compare“ diese Ergebnisse für das gesamte Dokument oder für bestimmte Seiten darin berechnen lassen – immer vorausgesetzt, dass die ausgewählten Seiten über eine GT Version verfügen. Denn beim Advanced Compare ist automatisch der GT als Referenz eingestellt.

Wähle also das zu validierende Modell als Hypothese aus und starte die Berechnung. Das Ergebnis gibt dir nicht nur den Durchschnittswert für das gesamte Dokument, sondern auch die entsprechenden Werte für jede einzelne Seite an. Und das macht den Advanced Compare zum wichtigsten Validierungstool in der systematischen Analyse bei der Entwicklung von Modellen.

In unserem recht komplexen Modelltraining für die Spruchakten (über 1000 Schreiberhänden aus über 150 Jahren) haben wir mit gesonderten kleinen Testsets gearbeitet an denen wir unsere neuen Modelle über das Advanced Compare immer wieder testen und die Ergebnisse genau analysieren konnten. So ließen sich nicht nur durchschnittliche Verbesserungen oder auch Verschlechterungen detailliert nachvollziehen. Wir konnten auch besondere Ausreißer, wie z.B. einzelne Konzeptschriften oder besonders „verschmierte“ ausmachen, die das sonst gute Gesamtergebnis verschlechterten. Darüber hinaus konnten wir aus diesem Zahlenmaterial viele Grafiken erstellen, die uns und euch bestimmte Phänomene und Entwicklungen veranschaulichen und dadurch verständlicher machen.

 

Tipps & Tools
Die Validierungsergebnisse des Advanced Compare kannst du dir auch als Excelltabelle auf deinen Rechner herunterladen. Dazu kannst du unter der Ergebnisdarstellung einen Ordner auswählen, in den das Dokument gespeichert werden soll. Klicke dann auf den Button „Download XLS“. Drücke nicht einfach Enter – sonst musst du wieder von vorne anfangen.

Posted by Elisabeth Heigl on

Der Textvergleich – Compare Text Versions

Release 1.10.1

Ein neues HTR-Modell ist über eine Seite gelaufen und du willst einen ersten Überblick haben, wie das Modell gelesen hat? Setze in den Tools, unter Compute Accuracy die entsprechenden Referenz (GT) und Hypothese (HTR Text) ein und schaue dir den Text Compare an:

Dieses Tool visualisiert den Vergleich der HTR mit der GT-Version direkt im Text. Ein Wort mit einem Fehler erscheint rot markiert und gestrichen, in grün steht dahinter die korrekte Version aus dem GT. Der Text Compare bildet die Wortfehlerquote (WER) ab. Es erlaubt uns aber vor allem schnell zu erkennen welche Fehler genau gemacht wurden. So können wir beispielsweise auch nachvollziehen, dass es sich bei vielen der Fehler tatsächlich um Kleinigkeiten handelt, die beim Lesen und der Wortsuche eigentlich nicht weiter stören. In unserem Beispiel hier sehen wir eine WER von 15%.

Posted by Dirk Alvermann on

Anwendungsfall: Erweiterung und Verbesserung bestehender HTR-Modelle

Release 1.10.1

Im letzten Beitrag haben wir beschrieben, dass ein Base Model alles was es bereits “gelernt” hat, an das neue HTR-Modell weitergeben kann. Mit zusätzlichem Ground Truth kann das neue Modell dann seine Fähigkeiten erweitern und verbessern.

Hier nun ein typischer Anwendungsfall: In unserem Teilprojekt zu den Assessorenvoten des Wismarer Tribunals trainieren wir ein Modell mit acht verschiednene Schreibern. Das Train Set umfasst 150.000 Wörter, die CER lag beim letzten Training bei 4,09 %. Allerdings war die durchschnittliche CER für einzelne Schreiber viel höher als für andere.

Wir entschieden uns also für ein Experiment. Wir fügten 10.000 Wörter neuen GT für zwei der auffälligen Schreiber (Balthasar und Engelbrecht) hinzu und nutzten das Base Model und dessen Trainings- und Validation Set für das neue Training.

Das neue Modell hatte im Ergebnis eine durchschnittliche CER von 3,82 % – es hatte sich also verbessert. Was aber bemerkenswert ist, ist das nicht nur die CER für die beiden Schreiber verbessert wurde, für die wir neuen GT hinzugefügt hatten – in beiden Fällen um bis zu 1%. Auch die Zuverlässigkeit des Modells für die anderen Schreiber hat nicht gelitten, sondern sich im Gegenteil, ebenfalls verbessert.

Posted by Dirk Alvermann on

Auf den Schultern von Giganten: Training mit Basismodellen

Release 1.10.1

Wer generische HTR-Modelle entwickeln möchte, der kommt an der Arbeit mit Base Models nicht vorbei. Beim Training mit Base Models wird jeder Trainingsdurchgang für ein Modell auf der Grundlage eines bereits existierenden Modells, eben eines Base Models, durchgeführt. Das ist in der Regel das letzte HTR-Modell, das man in dem entsprechenden Projekt trainiert hat.

Base Models „erinnern“ sich an das, was sie bereits „gelernt“ haben. Daher verbessert auch jeder neue Trainingsdurchgang die Qualität des Modells (theoretisch). Das neue Modell lernt also von seinem Vorgänger und wird dadurch immer besser. Daher ist das Training mit Base Models auch für große generische Modelle, die über lange Zeit kontinuierlich weiterentwickelt werden, besonders geeignet.

Um ein Training mit Base Model durchzuführen, wählt man im Trainingstool – neben den üblichen Einstellungen – einfach ein bestimmtes Base Model aus. Danach fügt man aus dem Reiter HTR Model Data das Train Set und und das Validation Set (in früheren Transkribus-Versionen als Test Set bezeichnet) des Base Models ein, sowie das neue Trainings und Validation Set. Zusätzlich kann man dann noch weiteren neuen Ground Truth hinzufügen und anschließend das Training starten.

Posted by Elisabeth Heigl on

Möglichkeiten der Validierung

Release 1.10.1

Es gibt mehrere Möglichkeiten für die Validierung unserer HTR-Ergebnisse in Transkribus: drei Compare tools können die Genauigkeit eines Modells auf unterschiedliche Weise berechnen bzw. darstellen. In allen Fällen vergleichen wir die Hypothese (HTR-Version) eines Textes mit einer entsprechenden Referenz (korrekte Version, also GT) des gleichen Textes.

 

Das erste und unmittelbarste Tool ist der Textvergleich „Compare Text Versions“. Er visualisiert die Unterschiede für die jeweils geöffnete Seite im Text selbst. Hier können wir also genau nachvollziehen, an welchen Stellen die HTR welche Fehler gemacht hat.

Der normale „Compare“ gibt uns diese Validierungsergebnisse in Zahlenwerten. Er berechnet u.a. die durchschnittliche Wortfehlerquote (WER), die Zeichenfehlerquote (CER) sowie die jeweiligen Genauigkeitsraten. (Wenn jemand weiß, was es mit den Bag Tokens auf sich hat, darf er/sie uns gerne dazu einen Kommentar schreiben). Im „Compare“ haben wir außerdem die Möglichkeit denAdvanced Compare“ auszulösen, mit dem wir die entsprechenden Berechnungen für das gesamte Dokument oder auch nur für bestimmte Seiten ausführen lassen können.

Das Vergleichsinstrument „Compare Sample“ haben wir an anderer Stelle schon einmal vorgestellt, um zu zeigen wie Test Samples erstellt werden können. Der Sample Compare stellt dann nämlich eine Prognose an, wie ein Modell potentiell auf einem so erstellten Validierungssample lesen wird.

Posted by Dirk Alvermann on

Generisch Modelle und was sie können

Release 1.10.1

In einem der vorigen Beiträge haben wir über den Unterschied zwischen Spezialmodellen und generischen Modellen gesprochen. Spezialmodelle sind immer dann die erste Wahl, wenn dein Material nur eine begrenzte Anzahl von Schreibern umfasst. Für sehr vielfältiges Material – wenn bspw. in einem Handschriftenkonvolut der Schreiber häufig wechselt – bietet es sich an, ein generisches Modell zu trainieren.

Die folgenden Beiträge gründen sich auf unsere Erfahrungen mit dem Training eines generischen Modells für die Responsa der Greifswalder Juristenfakultät, in dem ca. 1000 unterschiedliche Schreiberhände trainiert wurden.

Aber zuerst: Was soll ein generisches HTR-Modell können? Das wichtigste ist schon gesagt: Es soll mit einer Vielfalt verschiedener Schreiberhände umgehen können. Es soll aber auch verschiedene Schriftarten (Alphabete) und Sprachen „lesen“ könne und in der Lage sein, Abbreviaturen zu interpretieren.

Hier seht ihr ein paar typische Beispiele für solche Herausforderungen aus unserer Sammlung.

Verschiedene Schreiberhände auf einer Seite:

Abbreviaturen:

Verschiedene Sprachen auf einer Seite:

Posted by Dirk Alvermann on

Der Regelbruch – das Problem mit Konzeptschriften

Release 1.10.1

Konzeptschriften werden verwendet, wenn ein Schreiber schnell einen Entwurf anfertigt, der erst später „ins Reine“ geschrieben wird. Bei den Spruchakten sind dies die später verschickten Urteile. Diese Schriften sind meist sehr flüchtig und „unordentlich“ geschrieben. Oftmals werden dabei Buchstaben ausgelassen oder Wortendungen „verschluckt“. Konzeptschriften sind schon für den menschlichen Leser oft nicht leicht zu entziffern. Für die HTR stellen sie eine besondere Herausforderung dar.

Um ein HTR-Modell für das Lesen von Konzeptschriften zu trainieren, geht man ganz ähnlich vor, wie beim Traininig eines Modells, das Abbreviaturen interpretieren soll. Das HTR-Modell muss in beiden Fällen befähigt werden, etwas zu lesen, was überhaupt nicht da ist – nämlich fehlende Buchstaben und Silben. Um das zu erreichen muss die Transkriptionsregel: „Wir transkribieren als Ground Truth nur das, was auch wirklich auf dem Papier steht“ gebrochen werden. Wir müssen vielmehr alle ausgelassenen Buchstaben und fehlende Wortendungen etc. in unsere Transkription einfügen. Anders werden wir am Ende kein sinnvolles und durchsuchbares HTR-Ergebnis erhalten.

Bei unseren Versuchen mit Konzeptschriften hatten wir zuerst versucht spezielle HTR-Modelle für Konzeptschriften zu trainieren. Der Erfolg damit war eher gering. Schließlich sind wir dazu übergegangen, Konzeptschriften – ähnlich wie die Abbreviaturen – direkt innerhalb unseres generischen Modells mit zu trainieren. Dabei haben wir immer wieder überprüft, ob der „falsche Ground Truth“ den wir dabei produzieren, das Gesamtergebnis unseres HTR-Modells verschlechtert. Überraschender weise hatte das Brechen der Transkriptionsregeln, keinen messbaren negativen Effekt auf die Qualität des Modells. Das ist wahrscheinlich auch auf die schiere Menge des Ground Truth zurückzuführen, der in unserem Fall verwendet wird (ca. 400.000 Wörter).

HTR-Modelle sind also in der Lage Konzeptschriften von Reinschriften zu unterscheiden und entsprechend zu interpretieren – innerhalb bestimmter Grenzen. Unten findet ihr einen Vergleich des HTR-Ergebnisses mit dem GT bei einer typischen Konzeptschrift aus unserem Material.

Posted by Elisabeth Heigl on

Language Models

Release 1.10.1

Wir haben in einem früheren Beitrag über die Verwendung von Wörterbüchern gesprochen und dabei erwähnt, dass – je besser ein HTR-Modell ist (CER besser als 7%) – der Nutzen eines Wörterbuches für das HTR-Ergebnis geringer wird.

Anders ist das beim Einsatz von Language Models, die seit Dezember 2019 in Transkribus verfügbar sind. Wie Wörterbücher werden auch Language Models bei jedem HTR-Training aus dem dort genutzten Ground Truth generiert. Anders als Wörterbücher zielen Language Models aber nicht auf die Identifizierung einzelner Wörter. Sie ermitteln stattdessen die Wahrscheinlichkeit für eine Wortfolge oder die regelmäßige Kombination von Wörtern und Ausdrücken in einem bestimmten Kontext.

Anders als bei Wörterbüchern führt der Einsatz von Language Models immer zu wesentlich besseren HTR-Ergebnissen. In unseren Tests verbesserte sich die durchschnittliche CER im Vergleich zum HTR-Ergebnis ohne Language Model bis zu 1 % – und zwar durchweg, auf allen Testsets.

Tipps & Tools: Das Language Model kann bei der Konfiguration der HTR ausgewählt werden. Anders als bei Wörterbüchern sind Language Models und HTR-Modell nicht frei kombinierbar. Es wird immer das zum HTR-Modell generierte Language Model genutzt.

Posted by Anna Brandt on

Tools im Layout-Reiter

Release 1.10.

Der Layout-Reiter hat zwei weitere Tools, auf die wir in unserem letzten Post noch nicht eingegangen sind. Sie sind vor allem bei der Layoutkorrektur sehr nützlich und ersparen lästige Kleinarbeit.

Das erste ist dazu da, um die Reading Order zu korrigieren. Wenn eine oder mehrere Textregions ausgewählt sind, werden durch dieses Tool Baselines („children of the selected element“) automatisch nach ihrer Position im Koordinatensystem der Seite geordnet. Also Baseline 1 beginnt links oben und von da weiterzählend bis rechts unten. In dem unten stehenden Beispiel wurde eine TR in mehrere zerschnitten, dabei ist aber die RO der Marginalien durcheinander gekommen. Das Tool erspart in so einem Fall die Arbeit, jede BL einzeln umbenennen zu müssen.

Das zweite Tool („assign child shapes“) hilft die BL der richtigen TR zuzuordnen. Dies kann nach dem Schneiden von Textregionen oder auch bei Baselines, die sich durch mehrere TRs ziehen, notwendig werden. Die BLs müssen dann einzeln im Layout-Reiter markiert und dort in die richtige TR geschoben werden. Alternativ markiert man die TR, in die die BL gehören und startet das Tool. Die Reading Order sollte anschließend noch einmal überprüft werden.