Anna Brandt


Posted by Anna Brandt on

Strukturtagging

Wie genau Strukturtagging funktioniert, wird in diesem Wiki erklärt. Im Gegensatz zum „Textual tagging“ können hier alle Strukturen getaggt werden, also Textregions, Baselines oder auch Tabellen. In unserem Fall werden nur die Textregions getaggt, da wir das Strukturtagging zum Training eines Modells der P2PaLA nutzen.

Wenn man Trainingsmaterial erstellt und sich für eine Positionierung spezifischer Strukturelemente entschieden hat, sollte man diese beibehalten. Zum Beispiel: „paragraph“ ist bei uns immer die TR oben in der Mitte, quasi der Kern der Seite; „marginalie“ sind dagegen alle die Anmerkungen, die auf der linken Seite des Images, abgegrenzt vom „paragraph“ stehen.  Damit kann man die Images in ‚Typen‘ einteilen, also Gruppen von Images in denen immer die gleich getaggten TRs in einem bestimmten Koordinatenbereich der Seite stehen.

Tipps & Tools
Ihr könnt auf drei verschiedene Arten taggen: Erstens indem der markierte Bereich mit der rechten Maustaste angeklickt wird und dann über „assign structure type“ ein Tag vergeben wird. Oder ihr wählt im Reiter „Metadata“ den Bereich „Structural“, wo die vorhandenen Strukturtypen angezeigt werden. Dort können dann auch für Tags, die viel benutzt werden, Shortcuts festgelegt werden. Dazu muss man auf den Button „Customize“ gehen und in der Spalte „Shortcut“ eine Nummer von eins bis neun eingeben. Dann wird auch im Reiter der Shortcut angezeigt, es ist immer Strg+Alt+Nummer.

Posted by Anna Brandt on

Layout-Reiter

Release 1.7.1

Wenn ihr die Layoutanalyse korrigiert, könnt ihr dies einmal im Image direkt machen oder ihr navigiert über den Layout-Reiter auf der linken Seite. Dort werden alle Formen, wie die Textregions und die Baselines, mit ihrer Position im Image und ihren Strukturtags angezeigt. Es ist möglich Formen zu löschen oder zu verschieben. Im Image seht ihr dabei immer, wo ihr euch gerade befindet, welches Element gerade markiert ist und was ihr also verändert könnt.

Wenn ihr zwei Baselines zusammenfügen möchtet, könnt ihr sie im Layout-Reiter markieren statt im Image zu versuchen die schmale Linie zu treffen.

Die Navigation im Reiter ist vor allem dann praktisch, wenn ihr das Image im rechten Fenster dabei komplett sehen wollt. Ihr behaltet so einen besseren Überblick, da alles im Image und im Reiter gleichzeitig geändert wird.

Tipps & Tools
Die Reading Order der Baselines könnt ihr entweder verändern indem ihr die Lines im Layoutreiter verschiebt oder durch anklicken und ändern der Zahl in der Spalte „Reading Order“.

Posted by Anna Brandt on

Resonanz

Der Blog „Rechtsgeschiedenis“ (Otto Vervaart/Utrecht), hat eine ausführliche Besprechung über das Projekt ‚Rechtssprechung im Ostseeraum‘ bzw. unseren Blog gegeben. Es wird sowohl unsere Arbeit mit Transkribus, das Projekt selber, sowie die Seite zur Vorstellung der Ergebnisse und des Blogs beschrieben – ein guter Überblick aus der Sicht eines Nutzers.

Posted by Anna Brandt on

Kollaboration – Versions Management

Release 1.7.1

Das zweite wichtige Element für organisierte Kollaboration ist das Versionsmanagement von Transkribus. In der toolbar wirkt es eher unscheinbar, ist aber enorm wichtig. Transkribus legt nämlich bei jedem Speichern eine Version der gerade bearbeiteten page ab, die den aktuellen Stand der Layout- und Inhaltsbearbeitung enthält.

Diese Versionen werden – damit man sie besser unterscheiden kann – mit einem „edit status“ versehen. Ein neu hochgeladenes Dokument enthält nur pages mit dem edit status „new“. Sobald ihr eine page bearbeitet, wechselt der edit status automatisch auf „in progress“. Die drei übrigen Statusanzeigen – „done“, „final“ und „Ground Truth“ – können nur manuell gesetzt werden.

Wann man einen solchen „höheren“ Status setzt, hängt von den Absprachen im Team ab. Wir benutzen das Versionsmanagement vor allem bei der Produktion von Trainingsmaterial – Ground Truth. Dabei werden alle Seiten, die eine fertige Layout Analyse haben auf „done“ gesetzt, damit die Transcriber und Editors wissen, dass diese Seite jetzt von ihnen bearbeitet werden kann. Dieser Status wird nicht verändert, bis die Seite mit einer hundertprozentig sicheren Transkription versehen ist. Dann wird sie auf „Ground Truth“ oder „final“ gesetzt. Alle Seiten mit dem Status „GT“ werden später als Trainingsmaterial für HTR-Modelle genutzt, während aus den Seiten mit edit status „final“ die Testsets gebildet werden.

Jeder Kollaborator kann jederzeit alle Versionen einer Seite aufrufen und bearbeiten oder auch löschen. Der edit staus hilft ihm dabei, die jeweils gewünschte Version schneller zu finden. Neben dem edit status wird bei jeder Version der letzte Bearbeiter und der Speicherzeitpunkt angezeigt. Falls die Version mit einem automatischen Prozesse (Layout Analyse oder HTR) bearbeitet wurde, wird das ebenso kommentiert. So sind die Bearbeitungsschritte detailliert nachvollziehbar.

Tipps & Tools
Ihr könnt mehrere Versionen mit demselben Status haben.
Ihr könnt jede Version in einen beliebigen anderen Status versetzen – außer in „New“.
Ihr könnt einzelne oder mehrere Versionen löschen – außer Final-Versionen, die sind unlöschbar.

Posted by Anna Brandt on

Trainings- und Testsets (für Einsteiger)

Release 1.7.1

Wenn wir ein HTR-Modell trainieren, erstellen wir Trainingssets und Testsets, alle auf der Basis von Ground Truth. In den nächsten Posts zu diesem Thema erfahrt Ihr noch mehr darüber, vor allem, dass beide Sets nicht miteinander vermischt werden dürfen. Doch was genau ist der Unterschied zwischen beiden und wozu sind sie gut?

In der Auswahl des enthaltenen Materials sind Trainings- und Testsets sich sehr ähnlich. Das Material in beiden Sets soll aus denselben Akten kommen und auf demselben Stand (GT) sein. Der Unterschied liegt darin wie es von Transkribus zur Erstellung eines neuen Modells behandelt wird: Das Trainingsset wird vom Programm in hundert (oder mehr) Durchgängen (Epochs) gelernt. Stellt euch vor, ihr schreibt einen Test hundert Mal – quasi zu Übungszwecken. Jedes Mal wenn ihr den Test geschrieben habt, durch alle Seiten durch seid, bekommt ihr die Lösung und könnt euch eure Fehler anschauen. Dann fangt ihr mit derselben Übung von vorne an. Dabei werdet ihr natürlich immer besser. Genauso macht es Transkribus und lernt damit bei jedem Durchgang ein bisschen mehr.

Nach jedem Durchgang in Trainingsset wird das Gelernte am Testset überprüft. Stellt euch wieder den Test vor. Auch diesmal schreibt ihr den Test, bekommt die Note, aber man sagt euch nicht, was ihr falsch gemacht habt. Transkribus geht also viele Male durch dieselben Seiten, kann aber nie die richtige Lösung sehen. Das Modell muss auf das vorher gelernte beim Trainingsset zurückgreifen und daran sieht man dann wie gut es gelernt hat.

Wenn also im Testset dieselben Seiten wie im Training wären, dann könnte Transkribus „schummeln“. Es würde die Seiten schon kennen, hätte schon hundert Mal an ihnen geübt und schon hundert Mal die Lösung gesehen. Das ist der Grund, warum die CER (Character Error Rate/ Zeichenfehlerquote) im Trainingsset fast immer geringer ist, als im Testset. Das sieht man am besten an der „Lernkurve“ eines Modells.

Posted by Anna Brandt on

Toolbar – die wichtigsten Werkzeuge und wie man sie benutzt, Teil 2

Release 1.7.1

Layout korrigieren

Wenn die groben Textregionen gezogen sind, können diese bearbeitet werden. Dazu wählt ihr eine der Regionen aus, dann werden die anderen Tools auf der Toolbar aktiv.

Mit 1 können zu der ausgewählten Form (TR oder BL!) ein oder mehrere Punkte hinzufügt werden. Alle Formen bestehen aus Punkten, an denen ihr die Form verschieben könnt und geraden Linien, welche diese Punkte verbinden. Um aus der groben Textregion ein Polygon zu machen, welches an den Textfluss angepasst ist, benutzt ihr dieses Tool.

Mit 2 wird von der ausgewählten Form ein Punkt entfernt. Dieses Tool ist besonders geeignet, um Baselines zu korrigieren oder zu kürzen. Das ist häufig der Fall wenn man ausgewählte Elemente teilt.

Mit 3,4 und 5 ist es nämlich möglich die ausgewählte Form zu teilen. Auch das geht sowohl bei Textregions als auch bei Baselines: 3 teilt horizontal, 4 vertikal. Mit 5 zieht ihr eine eigene Linie, die nicht nur waagerecht oder senkrecht verlaufen muss.

Das letzte wichtige Werkzeug (roter Kreis) ist das Merge-Werkzeug. Das ist besonders wichtig, wenn die automatische LA Baselines im Image zerrissen hat. Ihr könnt mit Merge alle Formen wieder zusammenfügen. Also Baselines mit Baselines und Textregionen mit Textregionen. Dazu müsst ihr die entsprechenden Formen markieren, was ihr im Image direkt oder im Layout-Reiter tun könnt.

 

Tipps & Tools
Beim Teilen müsst ihr darauf achten, dass die TR und BL nur an den Stellen geteilt werden können, wo sie Linien haben. Ein Schnitt durch die Punkte, die auf der Form sitzen, ist nicht möglich.
Außerdem ist wichtig zu wissen, dass bei der Teilung einer Form die Reading Order automatisch verändert wird. Wenn zum Beispiel aus einer TR zwei gemacht werden, wird in jeder TR eine neue Zählung angefangen.

Posted by Anna Brandt on

Reading Order

Release 1.7.1

Die Reading Order legt fest, in welcher Reihenfolge Transkribus mit einem HTR-Modell die Zeilen in einem Image lesen wird. Diese RO wird bei der Layoutanalyse automatisch erstellt, kann jedoch ebenfalls später manuell geändert werden. Bei der automatischen LA wird die RO anhand der Position der Zeilen im Image festgelegt, die oberste Zeile, die am weitesten links steht ist die eins und so weiter.

Wenn die Schrift im Image nicht ganz waagerecht verläuft oder wenn Baselines zerrissen sind, kann das zu Fehlern in der Reading Order führen. Wenn ihr die LA korrigiert, solltet ihr auch immer noch einmal auf die RO schauen, sonst kann es sein, dass die Transkription später in Teilen keinen Sinn ergibt. Um die RO zu ändern kann entweder im Dokument auf die Kreise in denen die Zahlen stehen geklickt werden und im dortigen Feld die Nummer ändern. Oder ihr ändert die RO, indem ihr im Layout-Reiter die entsprechende Zeile markiert und mit der Maus verschiebt, dann wird die RO im Dokument automatisch geändert. Soll der spätere Volltext auf den ersten Blick Sinn ergeben, sind solche Korrekturen unerlässlich. Denn schließlich bestimmt die RO den Zusammenhang der Inhalte. Wenn der Inhalt des Dokuments nur für eine Volltextsuche erschlossen und nicht im Kontext angezeigt werden soll, ist die RO weniger relevant.

 

Tipps & Tools
Wenn ihr eine Zeile nach vorne oder hinten verschieben wollt, werden sich die Nummern der nachfolgenden Zeilen automatisch ändern. Dann ist manchmal vorher ein bisschen rechnen nötig, welche Nummer jetzt die richtige ist.
Ganz wichtig: Wenn der Schreiber von links nach rechts eine ansteigende Zeile schreibt – was sehr, sehr oft vorkommt – und wenn die Baseline bei der LA gesplittet wird, dann hat die zweite Hälfte der geteilten BL die kleinere Nummer. Sollen diese Baselines mit dem Merge Tool zusammengefügt werden, müsst ihr unbedingt vorher auf die RO schauen. Wenn die RO falsch ist fügt Transkribus sie mit einen Bogen zusammen. Diese Baseline kann von der HTR nicht mehr interpretiert werden.
Edit: Dieses Problem wurde mit der Version 1.8.0 gelöst. Das Problem kommt jetzt lediglich bei vertikal erkannten Zeilen vor.

 

Posted by Anna Brandt on

Toolbar – die wichtigsten Werkzeuge und wie man sie benutzt, Teil 1

Release 1.7.1

Layouts erstellen

So sieht die Toolbar bei einem neuen Image aus. Wenn eine CITlab Advanced LA über das Image gelaufen ist, können auch die anderen Tools aktiviert werden. Wenn das Layout von Hand gemacht werden soll, sind vor allem die beiden Tools in den oberen Kreisen wichtig. TR steht für Textregion, das erste was bei einem Layout erstellt werden muss. Damit wird festgelegt welche Bereiche des Images Text haben und welche nicht. Wenn der Text nicht richtig in eine Textregion passt, zieht ihr diese zuerst grob und passt sie später an. Anschließend können mit „BL“ die Baselines gezogen werden. Von den unteren Tools ist nur der grüne, halbrunde Pfeil wichtig. Dies ist das Tool „undo“; wie der Name schon sagt, dient es um Aktionen rückgängig zu machen.

 

Tipps & Tools
„Item visibility“ ist ein Hilfsmittel um das Dokument für euch übersichtlicher zu gestalten. Wenn es angeklickt ist, erscheint ein Kasten, in dem ausgewählt kann, was im aktuellen Image zu sehen sein soll. Wichtig sind vor allem die TR und die BL, nicht nur wenn das Layout bearbeitet wird, sondern auch bei der späteren Transkription. Diese beiden Kästen sind in der Voreinstellung eigentlich immer abgehackt, wenn die Anzeige der BL stört müsst ihr sie also manuell deaktivieren. Auch wichtig für die Korrektur des Layouts ist die Lines Reading Order, also in welcher Reihenfolge die Zeilen später von der HTR gelesen werden. Wenn die Reading Order angezeigt ist, kann man schnell sehen, ob die Layoutanalyse zuverlässig gearbeitet hat. Diese Anzeige ist jedoch für die Transkription von Hand meist störend, dort solltet ihr sie wieder ausblenden.

Posted by Anna Brandt on

Baselines

Release 1.7.1

Die Baseline ist die Grundlinie der Schriftzeile und bildet den wichtigsten Bezugspunkt für die Texterkennung. Heute wird die Segmentierung eines Textes in Zeilen in den meisten Fällen automatisch mit Hilfe der CITlab Advanced LA ausgeführt werden. Es gibt aber immer wieder Fälle, wo ihr euch entweder sofort für das manuelle Ziehen der Baselines entscheiden werdet oder zumindest manuelle Korrekturen ausführen möchtet. Dazu ein paar praktische Tipps:

Die Baseline sollte immer möglichst genau unter dem „Mittelband“ der Zeile stehen, das heißt dort, wo „a“ „o“ „m“ „v“ etc. den Boden berühren. Falls man die Baseline manuell hinzufügt (was mit wenig Übung sehr fix geht), sollte man sich niemals mehr als ein bis zwei Strichstärken der Schrift von der Grundlinie entfernen (egal in welche Richtung). Die Baseline besteht aus einzelnen Punkten, die man beim manuellen hinzufügen selber setzt; abgeschlossen wird das setzen mit einem Doppelklick oder Enter auf den letzten Punkt. Baselines können auch vertikal gezogen werden. In einem Image und sogar einer Textregion können verschiedene Verlaufsrichtungen der Zeilen kombiniert werden (bspw. das typische „Postkartenlayout“).

Probleme bei der automatischen Line Detection treten immer dann gehäuft auf, wenn entweder die Wortabstände stark variieren oder besonders groß werden oder wenn die Zeilenführung abrupt geändert wird. In solchen Fällen kann es dazu kommen, dass die Baseline einer Zeile in Teilabschnitte zergliedert wird, die einzelne Wort umfassen. Für die Texterkennung und damit auch für die spätere Volltextsuche hat das keine Konsequenzen, weil ja nach wie vor der gesamte Text erfasst werden kann. Wer allerdings Wert auf ein perfektes Layout seines Volltextes legt, das den Zeilenfall der Vorlage wiedergibt, der muss hier korrigieren. Die Korrektur der Zeilen ist nicht immer notwendig, es muss allerdings auf die Reading Order geachtet werden, da sonst im späteren Transkript Unklarheiten entstehen können. Solche „zerrissenen“ Zeilen lassen sich am schnellsten mit dem Merge-Tool wieder zusammenführen.

 

Tipps & Tools
Was wenn der Text Kopf steht?
Die CITlab Advanced LA kann die Baseline einer kopfstehenden Zeile nicht korrekt erfassen. Baselines funktionieren immer in Leserichtung. Will man kopfstehende Zeilen erkennen lassen oder manuell festlegen, muss man entweder das Image drehen oder bei der Kopfstehenden Zeile die Baseline am oberen Bereich des Mittelbandes (gegen die Leserichtung) von rechts nach links ziehen. In beiden Fällen wird Transkribus das Image bei der Transkription in die lesefähige Richtung drehen.

Posted by Anna Brandt on

Was man über Collections & Documents wissen sollte

Release 1.7.1

Collections und Documents sind die beiden wichtigsten Kategorien, in denen man Material in Transkribus ordnen und verwalten kann. Eine Collection ist dabei nichts anders als eine Art Verzeichnis, in dem man zueinander gehörende Dokumente ablegt. Dabei ist wichtig zu wissen, dass einige Tools, die Transkribus bereitstellt nicht über die Grenzen eine Collection hinaus arbeiten. Dazu gehört die Tag-Suche, die für alle diejenigen, die ihre HTR-Ergebnisse mit Tags versehen möchten ein wichtiges Hilfsmittel darstellt.

Documents sind Teile der Collection, z.B. ein Konvolut Briefe oder eine Akte oder auch ein Einzelschriftstück. In unserem Projekt ist ein Document immer eine Akte. Documents können also viele Pages enthalten. Sie werden via Upload (über ftp oder direkt vom Rechner) in Transkribus geladen, wobei niemals ein einzelnes image, sondern immer ein Ordner mit images hochgeladen wird.

Einmal hochgeladen, ist die Möglichkeit, die einzelnen Seiten eines Documents zu bearbeiten, beschränkt. Über den Documentmanager besteht die Möglichkeit einzelne Seiten innerhalb des Documents zu verschieben oder zu löschen, es können sogar weitere Seiten hinzugefügt werden. Auch können images, wenn sie erst einmal hochgeladen sind, nicht mehr bearbeitet oder gedreht werden. Das bedeutet: vor dem Upload sollte geprüft werden, ob die images richtig ausgerichtet sind und ob das Document vollständig ist.

Aus diesem Grund werden in diesem Projekt Documents erst zusammengestellt und hochgeladen, wenn sie im Goobi Metadateneditor bearbeitet und dort auf Vollständigkeit geprüft sind und Struktur- und Metadaten erhalten haben. So ist gesichert, dass beim späteren Reimport der HTR-Ergebnisse dieselben tatsächlich auf eine identische Dokumentenstruktur übertragen werden.

Tipps & Tools
Documents können jederzeit zwischen verschiedenen Collections verteilt werden. Das geschieht über Verlinken (dann wird jede Änderung am Document, egal von wo aus sie erfolgt in alle Collections auf die es verlinkt ist übertragen) oder durch Duplizierung (wodurch tatsächlich zwei singuläre Documents entstehen, die auch unabhängig voneinander bearbeitet werden können).