Yearly Archives

34 Articles

Posted by Dirk Alvermann on

P2PaLA vs. Standard LA

Release 1.9.1

Im vorigen Post haben wir beschrieben, dass – wenn die Layouts der Dokumente sehr anspruchsvoll sind – die Standard LA in Transkribus nicht immer befriedigende Ergebnisse liefert. Für ein perfektes HTR-Ergebnis braucht man aber eine perfekte LA.

Vor allem in den Dokumenten des 16. und frühen 17. Jahrhunderts konnte die CITlab Advanced LA uns nicht überzeugen. Wir hatten von Anfang an nicht erwartet, dass die Standard LA die anspruchsvolleren Layouts (Textregionen) differenziert erkennt. Es war aber die line detection, die am Ende unseren Ansprüchen bei diesen Dokumenten nicht mehr genügen konnte.

Ein Beispiel dafür, wie (im schlimmsten Fall) die line detection der Standard LA auf unserem Material arbeitete, seht ihr hier:


1587, page 41

Dies kann ein Einzelfall sein. Wenn man aber große Mengen von Dokumenten in Transkribus verarbeitet, können solche Fälle häufiger auftreten. Um das Problem richtig bewerten zu können, haben wir daher an zwei Konvoluten unseres Materials eine repräsentative Fehlerstatistik aufgenommen. Es zeigt sich, dass die Standard LA hier mit durchschnittlich 12 Fehlern in der line detection pro Seite arbeitete (siehe Grafik unten, 1598). Das hat natürlich unerwünschte Auswirkungen auf das HTR-Ergebnis, die wir im nächsten Post näher beschreiben.

Posted by Dirk Alvermann on

P2PaLA oder Strukturtraining

Release 1.9.1

Die Page-to-Page-Layoutanalyse (P2PaLA) ist eine Form der Layoutanalyse für die, ähnlich wie bei der HTR, individuelle Modelle trainiert werden können. Diese Modelle können trainiert werden, sodass sie entweder nur Textregionen erkennen oder Textregionen und Baselines – sie erfüllen also dieselben Funktionen, die auch von der Standard Layoutanalyse (CITlab Advanced) ausgeführt werden. Die P2PaLA ist vor allem geeignet wenn ein Dokument viele Seiten mit mixed Layout aufweist. Die Standard Layoutanalyse erkennt in solchen Fällen meist nur eine TR – und das kann im Text zu Problemen bei der Reading Order führen.

Mit Hilfe eines Strukturtrainings kann die Layoutanalyse lernen, wo in etwa oder auch wie viele TRs sie erkennen soll.

Die CITlab Advanced LA hatte bei unserem Material häufig Probleme Textregionen ausreichend differentziert zu erkennen. Daher haben wir in unserem Projekt früh mit der P2PaLA experimentriert. Zunächst probierten wir Strukturmodelle aus, die ausschließlich Textregionen setzten (Haupttext, Marginalien, Fußnoten etc.). In den so erzeugten TRs konnte dann die gewöhnliche Line detection durchgeführt werden. Aber auch hier waren die Ergebnisse für uns nicht immer zufriedenstellend.

Die BLs waren oft zu kurz (am Zeilenanfang oder Zeilenende) oder vielfach zerrissen – auch bei Seiten mit einfachem Layout. Deshalb haben wir auf Grundlage unseres bereits funktionierenden P2PaLA-Modells ein weiteres, mit zusätzlicher Erkennung der BLs, trainiert. Unser neuestes Modell erkennt mittlerweile alle ‚einfachen‘ Seiten fast fehlerlos. Bei Seiten mit sehr differenzierten Layouts müssen die Ergebnisse immer noch korrigiert werden, allerdings mit deutlich geringerem Aufwand als zuvor.

Posted by Anna Brandt on

Strukturtagging

Wie genau Strukturtagging funktioniert, wird in diesem Wiki erklärt. Im Gegensatz zum „Textual tagging“ können hier alle Strukturen getaggt werden, also Textregions, Baselines oder auch Tabellen. In unserem Fall werden nur die Textregions getaggt, da wir das Strukturtagging zum Training eines Modells der P2PaLA nutzen.

Wenn man Trainingsmaterial erstellt und sich für eine Positionierung spezifischer Strukturelemente entschieden hat, sollte man diese beibehalten. Zum Beispiel: „paragraph“ ist bei uns immer die TR oben in der Mitte, quasi der Kern der Seite; „marginalie“ sind dagegen alle die Anmerkungen, die auf der linken Seite des Images, abgegrenzt vom „paragraph“ stehen.  Damit kann man die Images in ‚Typen‘ einteilen, also Gruppen von Images in denen immer die gleich getaggten TRs in einem bestimmten Koordinatenbereich der Seite stehen.

Tipps & Tools
Ihr könnt auf drei verschiedene Arten taggen: Erstens indem der markierte Bereich mit der rechten Maustaste angeklickt wird und dann über „assign structure type“ ein Tag vergeben wird. Oder ihr wählt im Reiter „Metadata“ den Bereich „Structural“, wo die vorhandenen Strukturtypen angezeigt werden. Dort können dann auch für Tags, die viel benutzt werden, Shortcuts festgelegt werden. Dazu muss man auf den Button „Customize“ gehen und in der Spalte „Shortcut“ eine Nummer von eins bis neun eingeben. Dann wird auch im Reiter der Shortcut angezeigt, es ist immer Strg+Alt+Nummer.

Posted by Elisabeth Heigl on

Abbreviaturen

Release 1.9.1

Mittelalterliche und frühneuzeitliche Handschriften weisen in der Regel Abbreviaturen auf, also Abkürzungen in jeglicher Form. Das können sowohl Kontraktionen (Auslassung im Wort) und Suspensionen (Auslassung am Wortende) sein als auch die unterschiedlichsten Sonderzeichen. Sobald wir also alte Handschriften transkribieren wollen, müssen wir uns überlegen, wie wir die Abbreviaturen wiedergeben möchten: Geben wir alles so wieder, wie es im Text erscheint, oder lösen wir alles auf – oder passen wir uns den Kapazitäten der HTR an?

Für den Umgang mit Abbreviaturen in Transkribus gibt es grob gesehen drei verschiedene Möglichkeiten:

– Ihr könnt versuchen Abbreviaturzeichen als Unicode-Zeichen wiederzugeben. Viele der in lateinischen und deutschen Handschriften des 15. und 16. Jahrhunderts gebräuchlichen Abbreviaturzeichen findet ihr im Unicode block „Latin Extended-D“. Solche Unicode-Lösungen für Sonderzeichen in mittelalterlichen lateinischen Texten findet ihr bei der Medieval Unicode Font Initiative. Ob und wann dieser Weg sinnvoll ist, muss man aufgrund der Ziele des eigenen Projektes entscheiden. Auf jeden Fall ist dieser Weg recht aufwendig.

– Wenn ihr nicht mit Unicode-Zeichen arbeiten möchtet, könntet ihr auch den im Abbreviaturzeichen erkannten „Grundbuchstaben“ aus dem regulären Alphabet nutzen. Das wäre dann praktische wie eine litterale Transskription. So ein „Platzhalter“ kann dann mit einem textual tag versehen werden, der das Wort als Abbreviatur auszeichnet („abbrev“). Die Auflösung der so getaggten Abbreviatur kann dem tag als Eigenschaft unter „expansion“ eingegeben werden.

Die Auflösung der Abbreviatur wird also Bestandteil der Metadaten. Dieser Weg bietet die meisten Möglichkeiten für die Nachnutzung des Materials. Aber auch er ist mühsam, denn es muss wirklich jede Abbreviatur getaggt werden.

– Oder ihr löst die Abbreviaturen einfach auf. Wenn man – wie wir – große Mengen Volltext durchsuchbar bereitstellen möchte, macht eine konsequente Auflösung der Abbreviaturen Sinn, weil sie die Suche erleichtert. Wer sucht schon nach „pfessores“ statt nach „professores“?

Wir haben die Erfahrung gemacht, dass die HTR mit Abbreviaturen recht gut umgehen kann. Sowohl die klassischen lateinischen und deutschen Abbreviaturen, als auch Währungszeichen oder andere Sonderzeichen. Daher lösen wir die meisten Abbreviaturen schon während der Transskription auf und benutzen sie als Bestandteil des Ground Truth im HTR-Training.

Die von uns trainierten Modell haben einige Abbreviaturen sehr gut erlernt. Die in den Handschriften häufig verwendeten Verkürzungen, wie die auslaufende en-Endung können von einem HTR-Modell aufgelöst werden, wenn es ihm konsequent beigebracht wurde.

Komplexere Abbreviaturen – vor allem die Kontraktionen – bereiten der HTR dagegen Schwierigkeiten. In unserem Projekt haben wir uns daher dafür entschieden, solche Abbreviaturen nur literal wiederzugeben.

Welche Abbreviaturen uns in unserem Material aus dem 16. Bis 18. Jahrhunderts begegnen und wie wir (und später die HTR-Modelle) sie auflösen, seht ihr in unserer Abbreviaturensammlung, die von uns – work in progress! – stets erweitert wird.