Yearly Archives

36 Articles

Posted by Anna Brandt on

Toolbar – die wichtigsten Werkzeuge und wie man sie benutzt, Teil 1

Release 1.7.1

Layouts erstellen

So sieht die Toolbar bei einem neuen Image aus. Wenn eine CITlab Advanced LA über das Image gelaufen ist, können auch die anderen Tools aktiviert werden. Wenn das Layout von Hand gemacht werden soll, sind vor allem die beiden Tools in den oberen Kreisen wichtig. TR steht für Textregion, das erste was bei einem Layout erstellt werden muss. Damit wird festgelegt welche Bereiche des Images Text haben und welche nicht. Wenn der Text nicht richtig in eine Textregion passt, zieht ihr diese zuerst grob und passt sie später an. Anschließend können mit „BL“ die Baselines gezogen werden. Von den unteren Tools ist nur der grüne, halbrunde Pfeil wichtig. Dies ist das Tool „undo“; wie der Name schon sagt, dient es um Aktionen rückgängig zu machen.

 

Tipps & Tools
„Item visibility“ ist ein Hilfsmittel um das Dokument für euch übersichtlicher zu gestalten. Wenn es angeklickt ist, erscheint ein Kasten, in dem ausgewählt kann, was im aktuellen Image zu sehen sein soll. Wichtig sind vor allem die TR und die BL, nicht nur wenn das Layout bearbeitet wird, sondern auch bei der späteren Transkription. Diese beiden Kästen sind in der Voreinstellung eigentlich immer abgehackt, wenn die Anzeige der BL stört müsst ihr sie also manuell deaktivieren. Auch wichtig für die Korrektur des Layouts ist die Lines Reading Order, also in welcher Reihenfolge die Zeilen später von der HTR gelesen werden. Wenn die Reading Order angezeigt ist, kann man schnell sehen, ob die Layoutanalyse zuverlässig gearbeitet hat. Diese Anzeige ist jedoch für die Transkription von Hand meist störend, dort solltet ihr sie wieder ausblenden.

Posted by Anna Brandt on

Baselines

Release 1.7.1

Die Baseline ist die Grundlinie der Schriftzeile und bildet den wichtigsten Bezugspunkt für die Texterkennung. Heute wird die Segmentierung eines Textes in Zeilen in den meisten Fällen automatisch mit Hilfe der CITlab Advanced LA ausgeführt werden. Es gibt aber immer wieder Fälle, wo ihr euch entweder sofort für das manuelle Ziehen der Baselines entscheiden werdet oder zumindest manuelle Korrekturen ausführen möchtet. Dazu ein paar praktische Tipps:

Die Baseline sollte immer möglichst genau unter dem „Mittelband“ der Zeile stehen, das heißt dort, wo „a“ „o“ „m“ „v“ etc. den Boden berühren. Falls man die Baseline manuell hinzufügt (was mit wenig Übung sehr fix geht), sollte man sich niemals mehr als ein bis zwei Strichstärken der Schrift von der Grundlinie entfernen (egal in welche Richtung). Die Baseline besteht aus einzelnen Punkten, die man beim manuellen hinzufügen selber setzt; abgeschlossen wird das setzen mit einem Doppelklick oder Enter auf den letzten Punkt. Baselines können auch vertikal gezogen werden. In einem Image und sogar einer Textregion können verschiedene Verlaufsrichtungen der Zeilen kombiniert werden (bspw. das typische „Postkartenlayout“).

Probleme bei der automatischen Line Detection treten immer dann gehäuft auf, wenn entweder die Wortabstände stark variieren oder besonders groß werden oder wenn die Zeilenführung abrupt geändert wird. In solchen Fällen kann es dazu kommen, dass die Baseline einer Zeile in Teilabschnitte zergliedert wird, die einzelne Wort umfassen. Für die Texterkennung und damit auch für die spätere Volltextsuche hat das keine Konsequenzen, weil ja nach wie vor der gesamte Text erfasst werden kann. Wer allerdings Wert auf ein perfektes Layout seines Volltextes legt, das den Zeilenfall der Vorlage wiedergibt, der muss hier korrigieren. Die Korrektur der Zeilen ist nicht immer notwendig, es muss allerdings auf die Reading Order geachtet werden, da sonst im späteren Transkript Unklarheiten entstehen können. Solche „zerrissenen“ Zeilen lassen sich am schnellsten mit dem Merge-Tool wieder zusammenführen.

 

Tipps & Tools
Was wenn der Text Kopf steht?
Die CITlab Advanced LA kann die Baseline einer kopfstehenden Zeile nicht korrekt erfassen. Baselines funktionieren immer in Leserichtung. Will man kopfstehende Zeilen erkennen lassen oder manuell festlegen, muss man entweder das Image drehen oder bei der Kopfstehenden Zeile die Baseline am oberen Bereich des Mittelbandes (gegen die Leserichtung) von rechts nach links ziehen. In beiden Fällen wird Transkribus das Image bei der Transkription in die lesefähige Richtung drehen.

Posted by Anna Brandt on

Was man über Collections & Documents wissen sollte

Release 1.7.1

Collections und Documents sind die beiden wichtigsten Kategorien, in denen man Material in Transkribus ordnen und verwalten kann. Eine Collection ist dabei nichts anders als eine Art Verzeichnis, in dem man zueinander gehörende Dokumente ablegt. Dabei ist wichtig zu wissen, dass einige Tools, die Transkribus bereitstellt nicht über die Grenzen eine Collection hinaus arbeiten. Dazu gehört die Tag-Suche, die für alle diejenigen, die ihre HTR-Ergebnisse mit Tags versehen möchten ein wichtiges Hilfsmittel darstellt.

Documents sind Teile der Collection, z.B. ein Konvolut Briefe oder eine Akte oder auch ein Einzelschriftstück. In unserem Projekt ist ein Document immer eine Akte. Documents können also viele Pages enthalten. Sie werden via Upload (über ftp oder direkt vom Rechner) in Transkribus geladen, wobei niemals ein einzelnes image, sondern immer ein Ordner mit images hochgeladen wird.

Einmal hochgeladen, ist die Möglichkeit, die einzelnen Seiten eines Documents zu bearbeiten, beschränkt. Über den Documentmanager besteht die Möglichkeit einzelne Seiten innerhalb des Documents zu verschieben oder zu löschen, es können sogar weitere Seiten hinzugefügt werden. Auch können images, wenn sie erst einmal hochgeladen sind, nicht mehr bearbeitet oder gedreht werden. Das bedeutet: vor dem Upload sollte geprüft werden, ob die images richtig ausgerichtet sind und ob das Document vollständig ist.

Aus diesem Grund werden in diesem Projekt Documents erst zusammengestellt und hochgeladen, wenn sie im Goobi Metadateneditor bearbeitet und dort auf Vollständigkeit geprüft sind und Struktur- und Metadaten erhalten haben. So ist gesichert, dass beim späteren Reimport der HTR-Ergebnisse dieselben tatsächlich auf eine identische Dokumentenstruktur übertragen werden.

Tipps & Tools
Documents können jederzeit zwischen verschiedenen Collections verteilt werden. Das geschieht über Verlinken (dann wird jede Änderung am Document, egal von wo aus sie erfolgt in alle Collections auf die es verlinkt ist übertragen) oder durch Duplizierung (wodurch tatsächlich zwei singuläre Documents entstehen, die auch unabhängig voneinander bearbeitet werden können).

Posted by Anna Brandt on

Textregionen

Release 1.7.1

Im Normalfall wird die automatische CITlab Advanced Layout Analysis in ihrer Standardeinstellung auf einem image nur eine einzige Textregion mit den dazugehörigen Baselines erkennen.

Es gibt aber auch einfache Layouts, bei denen sich der Einsatz mehrere TRs empfiehlt, bspw. wenn Marginalien, Rand- oder Fußnotizen und ähnliche wiederkehrende Elemente vorhanden sind. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen TR enthalten sind, zählt die Layoutanalyse die Zeilen schlicht der Reihenfolge nach von oben nach unten.

 

Diese „Reading Order“ nimmt keine Rücksicht darauf, wo ein Text inhaltlich eigentlich hingehört (bspw. eine Einfügung), sondern nur darauf wo er grafisch auf der Seite verortet ist. Eine automatisch erzeugte, aber unbefriedigende Reading Order zu korrigieren ist langweilig und manchmal aufwendig. Man kann das Problem oft vermeiden, indem man mehrere Textregions anlegt in denen die zusammengehörigen Texte und Zeilen wie in einer Box gut aufgehoben sind.

Dazu werden an den entsprechenden Stellen TRs manuell angelegt. Anschließend führt man die Line Detection mit CITlab Advanced durch um die Baselines automatisch hinzuzufügen.

 

Tipps & Tools
Wenn ihr die TRs manuell gezogen habt und nun von der CITlab Advanced LA die Baselines gezogen haben wollt, solltet ihr zuerst den Haken bei „Find Textregions“ herausnehmen, sonst werden die manuell gezogenen TRs gleich wieder überschrieben. Außerdem sollte man dafür sorgen, dass keine der einzelnen Textregionen aktiv ist, sonst wird nur diese bearbeitet.

Posted by Elisabeth Heigl on

Transkriptionsrichtlinien

In den Abschriften für den Ground Truth wird die litterale oder diplomatische Transkription angestrebt. Das bedeutet, dass wir bei der Transkription möglichst keine Regulierungen hinsichtlich der Zeichen vornehmen. Die Maschine muss anhand einer möglichst zeichengetreuen Abschrift lernen, um selbst später genau wiedergeben zu können, was auf dem Blatt zu lesen ist. So übernehmen wir beispielsweise konsequent die vokalische und konsonantische Verwendung von „u“ und „v“ der Vorlage. An das Vrtheill vndt die Vniusersitet kann man sich erstaunlich rasch gewöhnen.

Nur in den folgenden Ausnahmen sind wir von der litteralen Transkription abgewichen und haben Zeichen reguliert. Auf die Behandlung von Abbreviaturen gehen wir noch einmal gesondert ein.

Das ſogennante Lang-s und das Schluß-s oder auch runde S können wir nicht litteral übernehmen, weil wir weitgehend auf das Antiqua-Zeichensystem angewiesen sind. Daher übertragen wir beide Formen als „s“.

Umlaute geben wir so wieder, wie sie erscheinen. Diakritische Zeichen werden übernommen, es sei denn das moderne Zeichensystem erlaubt dies nicht; wie im Fall des „a“ mit ‚diakritischem e‘, das zum „ä“ wird. Diphthonge werden ebenfalls übernommen, das „æ″ allerdings als ae″.

Das Ypsilon wird in vielen Handschriften als „ÿ″ geschrieben. Wir transkribieren es aber in der Regel als einfaches y″. Nur wenn es paläografisch begründet ist, differenzieren wir zwischen „y“ und dem ähnlich verwendeten „ij“.

Auch hinsichtlich der Satz- und Sonderzeichen gibt es einige Ausnahmen von der litteralen Transkription: In den Handschriften werden Klammern auf ganz unterschiedliche Weisen dargestellt. Wir verwenden hier aber einheitlich die modernen Klammerzeichen (…). Auch die Worttrennungszeichen am Zeilenende weisen eine hohe Varianz auf, weshalb wir sie ausschließlich mit einem „¬“ wiedergeben. Das im modernen Gebrauch übliche Kupplungszeichen – der Bindestrich – kommt in den Handschriften kaum vor. Stattdessen finden wir bei Kupplung zweier Wörter häufig das „=“, das wir mit einem einfachen Bindestrich wiedergeben.

Die Komma- und Punktsetzung übernehmen wir so wie sie erscheint – sofern überhaupt vorhanden. Endet der Satz nicht mit einem Punkt setzen wir auch keinen.

Groß- und Kleinschreibung wird unverändert nach der Vorlage übernommen. Häufig kann aber nicht eindeutig unterschieden werden ob es sich um einen Groß- oder Kleinbuchstaben handelt. Das betrifft weitgehend schreiberunabhängig insbesondere das D/d, das V/v und auch das Z/z. Im Zweifelsfall gleichen wir dann den fraglichen Buchstaben mit seiner sonstigen Verwendung im Text ab. In Komposita können Großbuchstaben innerhalb eines Wortes vorkommen – auch sie werden getreu nach der Vorlage transkribiert.

Posted by Elisabeth Heigl on

Wie wir die Spruchakten scannen

Die Seitenoberflächen der Spruchakten sind in der Regel uneben. Deshalb verwenden wir beim Scannen immer eine Glasplatte. Damit können zumindest grobe Knicke und Falten geglättet und so auch ein wenig die Schrift begradigt werden.

Im Gegensatz zum üblichen Scanverfahren bei Büchern scannen wir jede Seite einer Akte einzeln. Dabei haben wir die uns zur Verfügung stehenden Möglichkeiten der nachträglichen Layoutbearbeitung von Scans bewusst ausgeschlossen. Frühere Digitalisierungsprojekte haben gezeigt, dass diese umständlich und fehleranfällig sein können und den Workflow schnell durcheinanderbringen. Weil aber eine nachträgliche Layoutbearbeitung der Bilder ausgeschlossen wurde, müssen die Scans von Beginn an präsentabel produziert werden.

Deshalb nutzen wir beim Scannen den sogenannten „Crop-Modus“ (UCC-Projekteinstellungen). Damit wird der Blattrand der Vorlage automatisch erfasst und als Rahmen des gescannten Bildes (Image) gesetzt. So entsteht ein Image, das kaum schwarzen Rand aufweist. Eine mögliche ‚Schieflage‘ des Blattes kann dabei bis zu 40° ausgeglichen werden. Das führt zu verlässlich ausgerichteten Images und erleichtert auch die Handhabung beim Seitenwechsel während des Scannens.

Damit der Crop-Modus die zu scannende Seite als solche erkennt, darf auch nur diese zu sehen sein. Das bedeutet, dass alles andere, sowohl die jeweils gegenüberliegende Seite als auch die Blätter darunter, schwarz abgedeckt werden müssen. Dazu verwenden wir zwei handelsübliche schwarze Fotokartonblätter (A3 oder A2).

Bei den Spruchakten finden sich häufig Blätter, bei denen die Verschlusssiegel durch Ausschneiden entfernt wurden. Diese Seiten müssen jeweils zusätzlich mit einem Blatt unterlegt werden (farblich möglichst nah an der Vorlage), dass der Crop-Modus den Rand komplettiert, damit beim Scan nicht Bestandteile des Blattes abgeschnitten werden.

Wir können beim Scannen der Spruchakten also nicht einfach „durchblättern“ und Scans auslösen, sondern jedes einzelne Image muss im Prinzip vorbereitet werden. So ersparen wir uns aber auch eine eventuelle aufwendige Nachbearbeitung der Images. Die durchschnittliche Scangeschwindigkeit bei diesem Verfahren beträgt rund 100 Seiten pro Stunde.

Posted by Dirk Alvermann on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.

Posted by Elisabeth Heigl on

Transkriptionspraxis – erste Entscheidungen

In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.

Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.

Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.

Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.

Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.

Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.

Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.

Posted by Anna Brandt on

Elemente

Release 1.7.1

Für Handschriftentexterkennung ist die automatische Layoutanalyse von fundamentaler Bedeutung – ohne Layoutanalyse keine Texterkennung.
Die Layoutanalye sorgt dafür, dass das Image in verschiedene Bereiche abgegrenzt wird, und zwar in solche, die nicht weiter beachtet werden müssen und andere, die den zu erkennenden Text enthalten. Diese Bereiche heißen „Text Regions“ (TR, im Bild grün). Um innerhalb der Textregions Zeichen oder Buchstaben erkennen zu können, benötigt Transkribus „Baselines“ (BL, im Bild rot). Sie werden dort gezogen, wo sich die Grundlinie der Schrift befindet. Baselines werden von einer eigenen Region umgeben, die „line“ (im Bild blau) genannt wird, für den Anwender in der Praxis aber keine Relevanz hat. Die drei Elemente Text Region-Line-Baseline stehen in einem Eltern-Kind-Verhältnis zueinander und können ohne das jeweils übergeordnete Element nicht existieren – keine Baseline ohne Line und keine Line ohne Textregion. Man sollte dieses Elemente, ihre Funktionen und ihr Verhältnis zueinander kennen, v.a. wenn man einmal manuell am Layout arbeiten muss.

Manuelle Layouts sollten eher die Ausnahme als die Regel sein. Denn für die meisten Anwendungsfälle hält Transkribus ein äußerst mächtiges Werkzeug bereit – die „CITlab Advances Layout Analysis“. Es ist das Transkribus Standard-Modell, das seit 2017 erfolgreich eingesetzt wird und in den allermeisten Fällen sehr gute Ergebnisse bei der automatischen Segmentierung liefert. Diese automatische Layoutanalyse kann für eine einzelne Seite, eine Auswahl von Seiten oder ein ganzes Dokument eingesetzt werden.

Alle Elemente zur Segmentierung können auch manuell gesetzt, verändert und bearbeitet werden, was sich bei anspruchsvolleren Layouts, wenn sie nur vereinzelt vorkommen, auch empfiehlt. Dafür steht eine umfangreiche Toolbar zur Verfügung.

Posted by Anna Brandt on

Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.