Monthly Archives

9 Articles

Posted by Dirk Alvermann on

Mixed Layouts

Release 1.7.1

Die CITlab Advanced Layout Analysis kommt mit den meisten „ordentlichen“ Layouts in über 90% der Fälle gut zurecht. Reden wir hier also über die anderen 10%.

Wie man vorgeht, um sich Ärger mit der Reading Order zu ersparen, hatten wir schon besprochen. Aber was passiert, wenn wir es mit wirklich gemischten – verrückten – Layouts zu tun bekommen, z. B. bei Konzepten?

Bei komplizierten Layouts werdet ihr schnell merken, dass die manuell gezogenen TRs sich überlappen. Das ist nicht gut – denn in solchen überlappenden Textregionen funktioniert die automatische Line Detection nicht zuverlässig. Auch dieses Problem lässt sich leicht beheben, denn TRs müssen nicht nur viereckig sein. Sie können als Vielecke (Polygons) gezogen werden und sind dadurch leicht voneinander abzugrenzen.

Es ist sinnvoll, dass ihr diese vielen Textregionen mit strukturellen Tags verseht, um sie besser auseinanderhalten zu können und um sie bei der späteren Weiterverarbeitung evtl. bestimmten Verarbeitungsroutinen zuzuweisen. Das ist ein kleiner Aufwand mit großem Nutzen, denn das Strukturtagging ist nicht aufwendiger, als das Tagging im Kontext.

Tipps & Tools
Eine echte Herausforderung kann hier die automatische Line Detection sein. Abschnitte, bei denen Ihr schon (mit ein wenig Erfahrung) vorhersehen könnt, dass das nichts wird, bearbeitet ihr am besten manuell. Bei der automatischen Line Detection sollte CITlab Advanced so konfiguriert werden, dass die Default Einstellung gegen „Heterogeneous“ getauscht wird. Die LA wird jetzt sowohl waagerechte als auch senkrechte oder schiefe und schräge Zeilen berücksichtigen. Das dauert zwar etwas länger, aber dafür ist das Ergebnis auch besser.

Sollten solche komplizierten Layouts ein durchgängiges Merkmal eures Materials sein, dann lohnt es sich ein P2PaLA-Training zu konzipieren. Damit schafft ihr Euch ein eigenes Layout-Analyse-Modell, das für die spezifischen Herausforderungen eures Materials zugeschnitten ist. Für ein solches Training ist das Strukturtagging übrigens die Grundvoraussetzung.

Posted by Dirk Alvermann on

Die ersten Bände mit Entscheidungen des Wismarer Tribunals online

In den letzten Wochen konnten wir die ersten Aktenbände mit den Relationen der Assessoren des Hohen königlichen Tribunals zu Wismar – des Oberapellationsgerichts der deutschen Territorien der Krone Schwedens – zur Verfügung stellen. Als Assessoren wurden die Richter am Tribunal bezeichnet. Seit dem Großen Nordischen Krieg gab es anstelle von früher acht nur noch vier von ihnen. Der Vizepräsident teilte ihnen die Fälle zu, zu denen sie sich eine juristische Meinung bilden sollten. Wie am Reichskammergericht wurden zu jedem Fall Referenten und Koreferenten bestimmt, die ihre Meinung schriftlich ausformulierten und mit ihren Kollegen diskutierten. Stimmten die Voten der beiden Richter überein und wurden sie vom Vizepräsidenten bestätigt, der alle Relationen überprüfen musste, wurde in der Gerichtssitzung nur noch formal der Konsens der verbliebenen Kollegen eingeholt. Lag der Fall komplizierter, äußerten alle Assessoren ihre Meinung zum Urteil. Diese Urteilsbegründungen sind in der Sammlung der sogenannten „Relationes“ niedergelegt.

 

Diese Relationen sind für die Rechtsgeschichte eine erstrangige Quelle, da sie zunächst in einer Erzählung den Hergang des Konflikts referieren, um dann ein Urteil vorzuschlagen. Wir können hier sowohl die Rechtsgrundlagen in den Begründungen als auch den Alltag der Menschen in den Erzählungen nachvollziehen.

 

Die Texterkennung wurde mit einem Modell realisiert, das auf die Handschriften von neun verschiedenen Richtern des königlichen Tribunals trainiert wurde. Das Trainingsset umfasste 600.000 Wörter. Entsprechend gut ist die Accuracy-Rate der Handschriftentexterkennung, die in diesem Fall bei etwa 99% liegt.

Die Ergebnisse können hier betrachtet werden. Wie man in unseren Dokumenten navigiert und wie die Volltextsuche funktioniert, ist hier erklärt.

Wer waren die Richter?

In der zweiten Hälfte des 18. Jahrhunderts fand ein gewisser Generationswechsel unter den Richtern statt. Am Ende der 1750er / zu Beginn der 1760er Jahre wurde Recht Tribunal gesprochen durch: Hermann Heinrich von Engelbrecht (1709-1760), seit 1745 als Assessor, seit 1750 als Vizepräsident, Bogislaw Friedrich Liebeherr (1695-1761), seit 1736 als Assessor, Anton Christoph Gröning (1695-1773). seit 1749 als Assessor, Christoph Erhard von Corswanten (um 1708-1777), seit 1751 Assessor, seit 1761 Vizepräsident, Carl Hinrich Möller (1709-1759), seit 1751 als Assessor, Joachim Friedrich Stemwede (um 1720-1787), seit 1760 als Assessor, Johann Franz von Boltenstern (1700-1763), seit 1762 als Assessor, Johann Gustrav Friedrich von Engelbrechten  (1733-1806), zwischen 1762 und 1775 als Assessor und Augustin von Balthasar (1701-1786), seit 1763 als Assessor, seit 1778 als Vizepräsident.

Posted by Elisabeth Heigl on

Gesamtmodell oder Spezialmodell

Ist dir in dem Diagramm zur Modellentwicklung aufgefallen, dass die Zeichenfehlerquote (CER) des letzten Modells wieder etwas schlechter wurde? Und das, obwohl wir den GT-Input deutlich gesteigert hatten? Wir hatten rund 43.000 mehr Wörter im Training aber eine Verschlechterung der durchschnittlichen CER von 2,79 auf 3,43 %. Erklären konnten wir uns das nicht so richtig.

An dieser Stelle kamen wir mit immer mehr GT doch nicht so richtig weiter. Wir mussten also unsere Trainings-Strategie ändern. Bisher hatten wir Gesamtmodelle trainiert, mit Schriften aus einem Gesamtzeitraum von 70 Jahren und von über 500 Schreibern.

Unser erster Verdacht fiel auf die Konzeptschriften, von denen wir schon wussten, dass die Maschine (LA und HTR) – wie wir auch – damit ihre Probleme hat. Beim nächsten Training schlossen wir deshalb diese Konzeptschriften aus und trainierten also nur mit „sauberen“ Kanzleischriften. Eine auffällige Verbesserung brachte das aber nicht: die Test Set-CER sank von 3,43 auf gerade einmal 3,31 %.

Im den darauf folgenden Trainings setzten wir dann zusätzlich auf eine chronologische Sequenzierung der Modelle. Wir teilten unser Material und erstellten zwei verschiedene Modelle: Spruchakten_M_3-1 (Spruchakten 1583-1627) und Spruchakten_M_4-1 (Spruchakten 1627-1653).

Mit den neuen Spezialmodellen erreichten wir tatsächlich wieder eine Verbesserung der HTR – wo das Gesamtmodell nicht mehr ausgereicht hatte. In den Testsets wiesen jetzt etliche Seiten eine Fehlerquote von unter 2 % auf. Im Fall des M_4-1er Modells blieben viele Seiten-CERs unter 1 % und zwei Seiten sogar fehlerfrei mit 0 %.

Ob ein Gesamt- oder Spezialmodell weiterhilft und die besseren Ergebnisse bringt, hängt natürlich sehr vom Umfang und der Zusammenstellung des Materials ab. Am Anfang, wenn du noch „Masse machen“ willst (viel hilft viel) lohnt sich ein Gesamtmodell. Wenn das aber an seine Grenzen kommt, solltest du die HTR nicht weiter „überfordern“ sondern stattdessen deine Modelle spezialisieren.

Posted by Elisabeth Heigl on

Transkribus als Hilfsmittel für Studenten und Professoren

In der diesjährigen 24-Stunden-Vorlesung der Universität Greifswald wird Transkribus und unser Digitalisierungsprojekt vorgestellt. Elisabeth Heigl, die als wissenschaftliche Mitarbeiterin in das Projekt eingebunden ist, wird einige der spannenden Kriminalfälle aus den Spruchakten der Juristenfakultät Greifswald vorstellen: ‚Hexerei, Unzucht, Mord und Totschlag in Pommern. Automatische Handschriftenerkennung und frühneuzeitliche Rechtsquellen‘. Wer Lust und Interesse an der Rechtsgeschichte hat, kann am 16.11.2019 um 12:00 ins Audimax (Rubenowstraße 1) in den Hörsaal 2 kommen.
Auf der Seite der Studierendenschaft könnt ihr euch auch das ganze Programm der 24-Stunden-Vorlesung noch als PDF anschauen.

Posted by Dirk Alvermann on

Transkribus in Chicago

Beim diesjährigen Treffen der ‚Social Scienes History Association‘ (SSHA) in Chicago wird auch Transkribus vorgestellt. Günter Mühlberger wird in seinem Beitrag nicht nur die Möglichkeiten von Transkribus aufzeigen, sondern stellt auch erste Ergebnisse und Erfahrungen aus der Verarbeitung der Katasterprotokolle des Tiroler Landesarchivs und  unserem Digitalisierungsprojekt vor. Besondere Aufmerksamkeit wird er dabei auf das Training von HTR-Modellen und die Möglichkeiten des Keyword Spotting richten. Der Vortrag findet am 21.11. ab 11:00 unter dem Titel: ‚Handwritten Text Recognition and Keyword Spotting as Research Tools for Social Science and History‘ in der Session 31 (Emerging Methods: Computation/Spatial Econometrics) statt.

Posted by Anna Brandt on

Resonanz

Der Blog „Rechtsgeschiedenis“ (Otto Vervaart/Utrecht), hat eine ausführliche Besprechung über das Projekt ‚Rechtssprechung im Ostseeraum‘ bzw. unseren Blog gegeben. Es wird sowohl unsere Arbeit mit Transkribus, das Projekt selber, sowie die Seite zur Vorstellung der Ergebnisse und des Blogs beschrieben – ein guter Überblick aus der Sicht eines Nutzers.

Posted by Dirk Alvermann on

Warum Testsets wichtig sind und wie man sie anlegt, #2

Release 1.7.1

Wie geht man nun praktisch vor, um Testsets anzulegen?

Da kann letztlich jeder seinen eigenen Weg finden. In unserem Projekt werden die Seiten für die Testsets bereits während der Erstellung des GT ausgewählt. Sie erhalten einen besonderen edit status (Final) und werden später in separaten Dokumenten zusammengefasst. So ist gesichert, dass sie nicht aus Versehen ins Training geraten. Immer wenn neuer GT für das künftige Training erstellt wird, wird also auch zugleich das Material für das Testset erweitert. Beide Sets wachsen also „organisch“ und proportional.

Für das systematische Training erstellen wir mehrere Documents, die wir als „Testsets“ bezeichnen und die jeweils auf eine Spruchakte (einen Jahrgang) bezogen sind. Zum Beispiel erstellen wir für das Document der Spruchakte 1594 also ein „Testset 1594“. Hierein legen wir repräsentativ ausgewählte Images, die möglichst die Schreibervielfalt abbilden sollen. Im „Mutter-Dokument“ markieren wir die für das Testset ausgewählten Seiten als „Final“, um sicher zu gehen, dass sie dort auch weiterhin nicht bearbeitet werden. Wir haben nicht für jedes Jahr ein eigenes Testet erstellt, sondern sind in Abhängigkeit des Materials in Fünfjahresschritten vorgegangen.

Da ein Modell häufig über viele Durchgänge trainiert wird, hat dieses Vorgehen auch den Vorteil, dass das Testset immer repräsentativ bleibt. Die CERs der unterschiedlichen Versionen eines Modells lassen sich also stets vergleichen und in der Entwicklung beobachten, weil der Test immer auf demselben (oder erweiterten) Set ausgeführt wird. So ist es leichter die Fortschritte eines Modells zu beurteilen und die weitere Trainingsstrategie sinnvoll anzupassen.

Im Übrigen wird in Transkribus nach jedem Training das dafür verwendete Testset in der betroffenen Kollektion selbständig gespeichert. Man kann also immer wieder darauf zurückgreifen.

Es gibt auch die Möglichkeit, ein Testset erst kurz vor der Durchführung des Trainigs auszuwählen und einfach aus dem Trainingsmaterial einzelne Seiten der Dokumente dem Testset zuzuordnen. Das mag für den Einzelfall eine schnelle und pragmatische Lösung sein, ist für den planmäßigen Aufbau mächtiger Modelle aber nicht geeignet.

Posted by Elisabeth Heigl on

Unsere HTR-Ergebnisse in der Digitalen Bibliothek MV

Wir präsentieren unsere Ergebnisse in der Digitalen Bibliothek Mecklenburg-Vorpommern. Hier findest du die Digitalisate mit der dazugehörigen Transkription.

Wenn du eine Akte ausgewählt hast, wie hier zum Beispiel die Spruchakte von 1586, siehst du mittig die erste Seite. In der Box darüber kannst du zur nächsten, zur vorherigen oder auch zu irgendeiner Seite deiner Wahl wechseln (1.) , den Doppelseitenmodus wählen (2.), das Bild rotieren (3.), in den Vollbildmodus wechseln (4.) und es vergrößern oder verkleinern (5.).

Auf der linken Seite kannst du verschiedene Ansichten auswählen. Du kannst dir beispielsweise statt nur der einen Seite alle Bilder auf einmal anzeigen lassen (Seitenvorschau) oder du kannst gleich die Transkription des Textes in der Volltext-Anzeige lesen.

Wenn du in der Struktur der Akte navigieren möchtest, musst du zuerst in der untersten linken Inhalt-Box über das kleine Plus-Symbol dir den Strukturbaum der Akte anzeigen lassen. Dort kannst du dann ein Datum auswählen.

Suchst du einen bestimmten Namen, einen Ort oder einen anderen Begriff? Dann trage diesen einfach in das linke Suchfeld („Suche in: Spruchakte 1568“) ein. Wenn der Begriff in der Akte vorkommt, werden die „Volltexttreffer“, d. h. sämtliche Stellen an denen dein Suchbegriff vorkommt, angegeben.

Wenn du hier einen der Treffer auswählst, erscheint dein Suchbegriff auf dem Digitalisat gelb markiert. Das Highlighten der Suchergebniss funktioniert vorläufig nur auf dem Digitalisat, noch nicht im Volltext.

Tipps & Tools
Lass dir die Volltexttreffer in einem neuen Tab (über die rechte Maustaste) anzeigen. Das vor- und zurücknavigieren ist in der Digitalen Bibliothek leider noch etwas umständlich. So kannst du sicher gehen, dass du immer wieder auf deine vorherige Auswahl zurückkommst.

Posted by Dirk Alvermann on

Warum Testsets wichtig sind und wie man sie anlegt, #1

Release 1.7.1

Wenn wir überprüfen wollen, wieviel ein Modell im Training gelernt hat, müssen wir es auf die Probe stellen. Das tun wir mit Hilfe von möglichst genau definierten Testsets. Testsets enthalten – wie das Trainingsset – ausschließlich GT. Allerdings stellen wir sicher, dass dieser GT niemals für das Training des Modells verwendet wurde. Das Modell „kennt“ dieses Material also nicht. Das ist die wichtigste Eigenschaft von Testsets. Denn eine Textseite, die schon einmal als Trainingsmaterial diente, wird vom Modell immer besser gelesen werden, als eine, mit der es noch nicht „vertraut“ ist. Das kann man experimentell leicht überprüfen. Will man also valide Aussagen über die CER und WER erhalten, benötigt man „nicht korrumpierte“ Testsets.

Fast genauso wichtig ist, dass ein Testset repräsentativ ist. Solange man ein HTR-Modell für einen einzigen Schreiber oder eine individuelle Handschrift trainiert, ist das nicht schwer – es ist ja schließlich immer dieselbe Hand. Sobald mehrere Schreiber im Spiel sind, muss darauf geachtet werden, dass möglichst alle individuellen Handschriften die im Trainingsmaterial verwendet werden, auch im Testset enthalten sind. Je mehr unterschiedliche Handschriften in einem Modell trainiert werden desto größer werden die Testsets.

Der Umfang des Testsets ist ein weiterer Faktor, der die Repräsentativität beeinflusst. In der Regel sollte ein Testset 5-10% des Umfangs des Trainingsmaterials enthalten. Diese Faustregel sollte aber immer an die spezifischen Anforderungen des Materials und der Trainingsziele angepasst werden.

Um das einmal an zwei Beispielen zu erläutern: Unser Modell für die Spruchakten von 1580 bis 1627 wurde mit einem Trainingsset von fast 200.000 Wörtern trainiert. Das Testset beinhaltet 44.000 Wörter. Das ist natürlich ein sehr hoher Anteil von fast 20%. Er ist darauf zurückzuführen, dass in diesem Modell etwa 300 unterschiedliche Schreiberhände trainiert wurden, die im Testset auch repräsentiert sein müssen. – In unserem Modell für die Assessorenvoten des Wismarer Tribunals sind etwa 46.000 Wörter im Trainingsset enthalten, das Testset umfasst lediglich 2.500 Wörter, also ein Anteil von etwa 5%. Wir haben es hier allerdings auch nur mit 5 verschiedenen Schreiberhänden zu tun. Für die Repräsentativität des Testsets genügt das Material also.