Anna Brandt


Posted by Anna Brandt on

Textregionen

Release 1.7.1

Im Normalfall wird die automatische CITlab Advanced Layout Analysis in ihrer Standardeinstellung auf einem image nur eine einzige Textregion mit den dazugehörigen Baselines erkennen.

Es gibt aber auch einfache Layouts, bei denen sich der Einsatz mehrere TRs empfiehlt, bspw. wenn Marginalien, Rand- oder Fußnotizen und ähnliche wiederkehrende Elemente vorhanden sind. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen TR enthalten sind, zählt die Layoutanalyse die Zeilen schlicht der Reihenfolge nach von oben nach unten.

 

Diese „Reading Order“ nimmt keine Rücksicht darauf, wo ein Text inhaltlich eigentlich hingehört (bspw. eine Einfügung), sondern nur darauf wo er grafisch auf der Seite verortet ist. Eine automatisch erzeugte, aber unbefriedigende Reading Order zu korrigieren ist langweilig und manchmal aufwendig. Man kann das Problem oft vermeiden, indem man mehrere Textregions anlegt in denen die zusammengehörigen Texte und Zeilen wie in einer Box gut aufgehoben sind.

Dazu werden an den entsprechenden Stellen TRs manuell angelegt. Anschließend führt man die Line Detection mit CITlab Advanced durch um die Baselines automatisch hinzuzufügen.

 

Tipps & Tools
Wenn ihr die TRs manuell gezogen habt und nun von der CITlab Advanced LA die Baselines gezogen haben wollt, solltet ihr zuerst den Haken bei „Find Textregions“ herausnehmen, sonst werden die manuell gezogenen TRs gleich wieder überschrieben. Außerdem sollte man dafür sorgen, dass keine der einzelnen Textregionen aktiv ist, sonst wird nur diese bearbeitet.

Posted by Anna Brandt on

Elemente

Release 1.7.1

Für Handschriftentexterkennung ist die automatische Layoutanalyse von fundamentaler Bedeutung – ohne Layoutanalyse keine Texterkennung.
Die Layoutanalye sorgt dafür, dass das Image in verschiedene Bereiche abgegrenzt wird, und zwar in solche, die nicht weiter beachtet werden müssen und andere, die den zu erkennenden Text enthalten. Diese Bereiche heißen „Text Regions“ (TR, im Bild grün). Um innerhalb der Textregions Zeichen oder Buchstaben erkennen zu können, benötigt Transkribus „Baselines“ (BL, im Bild rot). Sie werden dort gezogen, wo sich die Grundlinie der Schrift befindet. Baselines werden von einer eigenen Region umgeben, die „line“ (im Bild blau) genannt wird, für den Anwender in der Praxis aber keine Relevanz hat. Die drei Elemente Text Region-Line-Baseline stehen in einem Eltern-Kind-Verhältnis zueinander und können ohne das jeweils übergeordnete Element nicht existieren – keine Baseline ohne Line und keine Line ohne Textregion. Man sollte dieses Elemente, ihre Funktionen und ihr Verhältnis zueinander kennen, v.a. wenn man einmal manuell am Layout arbeiten muss.

Manuelle Layouts sollten eher die Ausnahme als die Regel sein. Denn für die meisten Anwendungsfälle hält Transkribus ein äußerst mächtiges Werkzeug bereit – die „CITlab Advances Layout Analysis“. Es ist das Transkribus Standard-Modell, das seit 2017 erfolgreich eingesetzt wird und in den allermeisten Fällen sehr gute Ergebnisse bei der automatischen Segmentierung liefert. Diese automatische Layoutanalyse kann für eine einzelne Seite, eine Auswahl von Seiten oder ein ganzes Dokument eingesetzt werden.

Alle Elemente zur Segmentierung können auch manuell gesetzt, verändert und bearbeitet werden, was sich bei anspruchsvolleren Layouts, wenn sie nur vereinzelt vorkommen, auch empfiehlt. Dafür steht eine umfangreiche Toolbar zur Verfügung.

Posted by Anna Brandt on

Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.

 

 

 

Posted by Anna Brandt on

Was Du hier findest und was nicht

Dieser Blog berichtet hauptsächlich über unsere Arbeit mit Transkribus. Daneben stellen wir aber auch den Projektworkflow und unsere Erfahrung mit den Scanprozessen, den dabei angewendeten Parametern, der Erstellung von Struktur- und Metadaten und die Präsentation der Projektergebnisse im Viewer der Digitalen Bibliothek Mecklenburg-Vorpommern vor.

Dieser Blog ist kein Handbuch. Erwarte also nicht, dass hier step-by-step-Anleitungen für einzelne Aufgaben, die man in Transkribus erledigen kann, gegeben werden (obwohl wir das manchmal auch tun). Dafür gibt es eine ganze Reihe guter und bewährter How-To’s, die das Transkribus-Team und user in den letzten Jahren erarbeitet haben. Nein – hier wird über praktische Erfahrungen berichtet und  ein paar Tipps & Tricks verraten.

Transkribus hat inzwischen zwei Interfaces: den „Expert-Client“, den Du hier  herunterladen kannst, und des Web-User-Interface (WebUI), das Du unter dieser Adresse  erreichst. In diesem Blog geht es fast nur um den Expert-Client, weil nur er den vollen Funktionsumfang bereitstellt, den man benötigt, um anspruchsvolle Projekte zu bewältigen. Unter welchen Umständen und warum die Nutzung des WebUI trotzdem sinnvoll und angebracht ist, erklären wir hier.

Unsere Erfahrungen beziehen sich auf ein mittleres large-scale-project. Hier werden ca. 250.000 images verarbeitet. Entsprechend ausgerichtet ist unser Fokus. Wir setzen die Möglichkeiten von Transkribus ein, um große Mengen von Dokumenten durch automatisierte Texterkennung zu erschließen, mit Inhalten anzureichern und online zur Verfügung zu stellen. Dabei soll die Durchsuchbarkeit mittels Volltextsuche oder Keyword Spotting ermöglicht werden. Die Art der eingesetzten Mittel und der Anspruch an die Ergebnisse sind an diesem Ziel ausgerichtet. Projekte mit geringerem Umfang werden vielleicht differenzierte Methoden und subtilere Mittel anwenden; nichtsdestotrotz, auch für sie finden sich hier einige nützliche Erfahrungen.

Tipps & Tools
Lesetipp: Günter Mühlberger, Tamara Terbul: Handschriftenerkennung für historische Schriften. Die Transkribus Plattform