Category Archives

67 Articles

Posted by Anna Brandt on

Kollaboration – Versions Management

Release 1.7.1

Das zweite wichtige Element für organisierte Kollaboration ist das Versionsmanagement von Transkribus. In der toolbar wirkt es eher unscheinbar, ist aber enorm wichtig. Transkribus legt nämlich bei jedem Speichern eine Version der gerade bearbeiteten page ab, die den aktuellen Stand der Layout- und Inhaltsbearbeitung enthält.

Diese Versionen werden – damit man sie besser unterscheiden kann – mit einem „edit status“ versehen. Ein neu hochgeladenes Dokument enthält nur pages mit dem edit status „new“. Sobald ihr eine page bearbeitet, wechselt der edit status automatisch auf „in progress“. Die drei übrigen Statusanzeigen – „done“, „final“ und „Ground Truth“ – können nur manuell gesetzt werden.

Wann man einen solchen „höheren“ Status setzt, hängt von den Absprachen im Team ab. Wir benutzen das Versionsmanagement vor allem bei der Produktion von Trainingsmaterial – Ground Truth. Dabei werden alle Seiten, die eine fertige Layout Analyse haben auf „done“ gesetzt, damit die Transcriber und Editors wissen, dass diese Seite jetzt von ihnen bearbeitet werden kann. Dieser Status wird nicht verändert, bis die Seite mit einer hundertprozentig sicheren Transkription versehen ist. Dann wird sie auf „Ground Truth“ oder „final“ gesetzt. Alle Seiten mit dem Status „GT“ werden später als Trainingsmaterial für HTR-Modelle genutzt, während aus den Seiten mit edit status „final“ die Testsets gebildet werden.

Jeder Kollaborator kann jederzeit alle Versionen einer Seite aufrufen und bearbeiten oder auch löschen. Der edit staus hilft ihm dabei, die jeweils gewünschte Version schneller zu finden. Neben dem edit status wird bei jeder Version der letzte Bearbeiter und der Speicherzeitpunkt angezeigt. Falls die Version mit einem automatischen Prozesse (Layout Analyse oder HTR) bearbeitet wurde, wird das ebenso kommentiert. So sind die Bearbeitungsschritte detailliert nachvollziehbar.

Tipps & Tools
Ihr könnt mehrere Versionen mit demselben Status haben.
Ihr könnt jede Version in einen beliebigen anderen Status versetzen – außer in „New“.
Ihr könnt einzelne oder mehrere Versionen löschen – außer Final-Versionen, die sind unlöschbar.

Posted by Elisabeth Heigl on

Viel hilft viel – wieviel GT muss ich investieren?

Release 1.7.1

Wie schon gesagt: Ground Truth ist das A und O bei der Erstellung von HTR-Modellen.

GT ist die korrekte und maschinenlesbare Abschrift der Handschrift mit deren Hilfe die Maschine das „Lesen“ lernt. Je mehr die Maschine „üben“ kann, desto besser wird sie. Je mehr Ground Truth wir also haben desto geringer werden die Fehlerquoten. Viel hilft also auch viel.

Natürlich hängt die Menge immer vom konkreten Anwendungsfall ab. Wenn wir mit wenigen, gut lesbaren Schriften arbeiten, genügt in der Regel wenig GT, um ein solide arbeitendes Modell zu trainieren. Sind die Schriften aber sehr unterschiedlich, weil wir es mit einer großen Anzahl verschiedener Schreiber zu tun haben, wird der Aufwand höher. Das heißt, in solchen Fällen müssen wir mehr GT bereitstellen um gute HTR-Modelle zu erzeugen.

In den Spruchakten finden  wir besonders viele unterschiedliche Schreiber. Darum wurde hier auch sehr viel GT erzeugt um die Modelle zu trainieren. An unseren Spruchaktenmodellen (Spruchakten_M_2-1 bis 2-11) lässt sich deutlich ablesen, wie schnell die Fehlerquote tatsächlich zurückgeht, wenn möglichst viel GT investiert wird. Ganz grob lässt sich sagen, dass bei Verdoppelung der Menge des GT im Training (words in trainset) die Fehlerquote (CER Page) des Modells jeweils halbiert wird.

In unseren Beispielen konnten wir beobachten, dass wir die Modelle mit mindestens 50.000 Wörtern GT trainieren müssen, um gute Ergebnisse zu erzielen. Mit 100.000 Wörtern im Training kann man bereits ausgezeichnete HTR-Modelle erhalten.

Posted by Anna Brandt on

Trainings- und Testsets (für Einsteiger)

Release 1.7.1

Wenn wir ein HTR-Modell trainieren, erstellen wir Trainingssets und Testsets, alle auf der Basis von Ground Truth. In den nächsten Posts zu diesem Thema erfahrt Ihr noch mehr darüber, vor allem, dass beide Sets nicht miteinander vermischt werden dürfen. Doch was genau ist der Unterschied zwischen beiden und wozu sind sie gut?

In der Auswahl des enthaltenen Materials sind Trainings- und Testsets sich sehr ähnlich. Das Material in beiden Sets soll aus denselben Akten kommen und auf demselben Stand (GT) sein. Der Unterschied liegt darin wie es von Transkribus zur Erstellung eines neuen Modells behandelt wird: Das Trainingsset wird vom Programm in hundert (oder mehr) Durchgängen (Epochs) gelernt. Stellt euch vor, ihr schreibt einen Test hundert Mal – quasi zu Übungszwecken. Jedes Mal wenn ihr den Test geschrieben habt, durch alle Seiten durch seid, bekommt ihr die Lösung und könnt euch eure Fehler anschauen. Dann fangt ihr mit derselben Übung von vorne an. Dabei werdet ihr natürlich immer besser. Genauso macht es Transkribus und lernt damit bei jedem Durchgang ein bisschen mehr.

Nach jedem Durchgang in Trainingsset wird das Gelernte am Testset überprüft. Stellt euch wieder den Test vor. Auch diesmal schreibt ihr den Test, bekommt die Note, aber man sagt euch nicht, was ihr falsch gemacht habt. Transkribus geht also viele Male durch dieselben Seiten, kann aber nie die richtige Lösung sehen. Das Modell muss auf das vorher gelernte beim Trainingsset zurückgreifen und daran sieht man dann wie gut es gelernt hat.

Wenn also im Testset dieselben Seiten wie im Training wären, dann könnte Transkribus „schummeln“. Es würde die Seiten schon kennen, hätte schon hundert Mal an ihnen geübt und schon hundert Mal die Lösung gesehen. Das ist der Grund, warum die CER (Character Error Rate/ Zeichenfehlerquote) im Trainingsset fast immer geringer ist, als im Testset. Das sieht man am besten an der „Lernkurve“ eines Modells.

Posted by Elisabeth Heigl on

Kollaboration – User Management

Release 1.7.1

Die Transkribus-Plattform ist auf Kollaboration angelegt, das heißt, dass viele Nutzer an einer Collection und sogar an einem Document gleichzeitig arbeiten können. Eventuelle Kollisionen sollten bei ein wenig Organisationsgeschick vermeidbar sein.

Die beiden wichtigsten Elemente, die eine organisierte Kollaboration ermöglichen, sind das User Manangement und das Versionsmanagement in Transkribus. Das User Management bezieht sich ausdrücklich auf Collections. Derjenige, der eine Collection anlegt, ist immer ihr „owner“, das heißt, er hat volle Rechte, einschließlich des Rechts, die ganze Collection zu löschen. Er kann anderen Nutzern Zugriff auf die Collection gewähren und ihnen dabei Rollen zuweisen, die gestaffelten Rechten entsprechen:

Owner – Editor – Transcriber

Es macht immer Sinn, wenn mehr als ein Mitglied des Teams „owner“ einer Collection ist. Bei uns sind alle übrigen „editors“. Die Rolle „transcriber“ zu vergeben, ist vor allem dann sinnvoll, wenn man crowd-projects betreibt, wo Freiwillige oder Ehrenamtliche tatsächlich nichts anders tun, als Texte abzuschreiben oder zu taggen. Für solche „transcriber“ ist der Zugriff über das WebUI, mit seinen auf diese Rolle abgestimmten Funktionsumfang ideal geeignet.

Posted by Anna Brandt on

Toolbar – die wichtigsten Werkzeuge und wie man sie benutzt, Teil 2

Release 1.7.1

Layout korrigieren

Wenn die groben Textregionen gezogen sind, können diese bearbeitet werden. Dazu wählt ihr eine der Regionen aus, dann werden die anderen Tools auf der Toolbar aktiv.

Mit 1 können zu der ausgewählten Form (TR oder BL!) ein oder mehrere Punkte hinzufügt werden. Alle Formen bestehen aus Punkten, an denen ihr die Form verschieben könnt und geraden Linien, welche diese Punkte verbinden. Um aus der groben Textregion ein Polygon zu machen, welches an den Textfluss angepasst ist, benutzt ihr dieses Tool.

Mit 2 wird von der ausgewählten Form ein Punkt entfernt. Dieses Tool ist besonders geeignet, um Baselines zu korrigieren oder zu kürzen. Das ist häufig der Fall wenn man ausgewählte Elemente teilt.

Mit 3,4 und 5 ist es nämlich möglich die ausgewählte Form zu teilen. Auch das geht sowohl bei Textregions als auch bei Baselines: 3 teilt horizontal, 4 vertikal. Mit 5 zieht ihr eine eigene Linie, die nicht nur waagerecht oder senkrecht verlaufen muss.

Das letzte wichtige Werkzeug (roter Kreis) ist das Merge-Werkzeug. Das ist besonders wichtig, wenn die automatische LA Baselines im Image zerrissen hat. Ihr könnt mit Merge alle Formen wieder zusammenfügen. Also Baselines mit Baselines und Textregionen mit Textregionen. Dazu müsst ihr die entsprechenden Formen markieren, was ihr im Image direkt oder im Layout-Reiter tun könnt.

 

Tipps & Tools
Beim Teilen müsst ihr darauf achten, dass die TR und BL nur an den Stellen geteilt werden können, wo sie Linien haben. Ein Schnitt durch die Punkte, die auf der Form sitzen, ist nicht möglich.
Außerdem ist wichtig zu wissen, dass bei der Teilung einer Form die Reading Order automatisch verändert wird. Wenn zum Beispiel aus einer TR zwei gemacht werden, wird in jeder TR eine neue Zählung angefangen.

Posted by Anna Brandt on

Reading Order

Release 1.7.1

Die Reading Order legt fest, in welcher Reihenfolge Transkribus mit einem HTR-Modell die Zeilen in einem Image lesen wird. Diese RO wird bei der Layoutanalyse automatisch erstellt, kann jedoch ebenfalls später manuell geändert werden. Bei der automatischen LA wird die RO anhand der Position der Zeilen im Image festgelegt, die oberste Zeile, die am weitesten links steht ist die eins und so weiter.

Wenn die Schrift im Image nicht ganz waagerecht verläuft oder wenn Baselines zerrissen sind, kann das zu Fehlern in der Reading Order führen. Wenn ihr die LA korrigiert, solltet ihr auch immer noch einmal auf die RO schauen, sonst kann es sein, dass die Transkription später in Teilen keinen Sinn ergibt. Um die RO zu ändern kann entweder im Dokument auf die Kreise in denen die Zahlen stehen geklickt werden und im dortigen Feld die Nummer ändern. Oder ihr ändert die RO, indem ihr im Layout-Reiter die entsprechende Zeile markiert und mit der Maus verschiebt, dann wird die RO im Dokument automatisch geändert. Soll der spätere Volltext auf den ersten Blick Sinn ergeben, sind solche Korrekturen unerlässlich. Denn schließlich bestimmt die RO den Zusammenhang der Inhalte. Wenn der Inhalt des Dokuments nur für eine Volltextsuche erschlossen und nicht im Kontext angezeigt werden soll, ist die RO weniger relevant.

 

Tipps & Tools
Wenn ihr eine Zeile nach vorne oder hinten verschieben wollt, werden sich die Nummern der nachfolgenden Zeilen automatisch ändern. Dann ist manchmal vorher ein bisschen rechnen nötig, welche Nummer jetzt die richtige ist.
Ganz wichtig: Wenn der Schreiber von links nach rechts eine ansteigende Zeile schreibt – was sehr, sehr oft vorkommt – und wenn die Baseline bei der LA gesplittet wird, dann hat die zweite Hälfte der geteilten BL die kleinere Nummer. Sollen diese Baselines mit dem Merge Tool zusammengefügt werden, müsst ihr unbedingt vorher auf die RO schauen. Wenn die RO falsch ist fügt Transkribus sie mit einen Bogen zusammen. Diese Baseline kann von der HTR nicht mehr interpretiert werden.
Edit: Dieses Problem wurde mit der Version 1.8.0 gelöst. Das Problem kommt jetzt lediglich bei vertikal erkannten Zeilen vor.

 

Posted by Anna Brandt on

Toolbar – die wichtigsten Werkzeuge und wie man sie benutzt, Teil 1

Release 1.7.1

Layouts erstellen

So sieht die Toolbar bei einem neuen Image aus. Wenn eine CITlab Advanced LA über das Image gelaufen ist, können auch die anderen Tools aktiviert werden. Wenn das Layout von Hand gemacht werden soll, sind vor allem die beiden Tools in den oberen Kreisen wichtig. TR steht für Textregion, das erste was bei einem Layout erstellt werden muss. Damit wird festgelegt welche Bereiche des Images Text haben und welche nicht. Wenn der Text nicht richtig in eine Textregion passt, zieht ihr diese zuerst grob und passt sie später an. Anschließend können mit „BL“ die Baselines gezogen werden. Von den unteren Tools ist nur der grüne, halbrunde Pfeil wichtig. Dies ist das Tool „undo“; wie der Name schon sagt, dient es um Aktionen rückgängig zu machen.

 

Tipps & Tools
„Item visibility“ ist ein Hilfsmittel um das Dokument für euch übersichtlicher zu gestalten. Wenn es angeklickt ist, erscheint ein Kasten, in dem ausgewählt kann, was im aktuellen Image zu sehen sein soll. Wichtig sind vor allem die TR und die BL, nicht nur wenn das Layout bearbeitet wird, sondern auch bei der späteren Transkription. Diese beiden Kästen sind in der Voreinstellung eigentlich immer abgehackt, wenn die Anzeige der BL stört müsst ihr sie also manuell deaktivieren. Auch wichtig für die Korrektur des Layouts ist die Lines Reading Order, also in welcher Reihenfolge die Zeilen später von der HTR gelesen werden. Wenn die Reading Order angezeigt ist, kann man schnell sehen, ob die Layoutanalyse zuverlässig gearbeitet hat. Diese Anzeige ist jedoch für die Transkription von Hand meist störend, dort solltet ihr sie wieder ausblenden.

Posted by Anna Brandt on

Baselines

Release 1.7.1

Die Baseline ist die Grundlinie der Schriftzeile und bildet den wichtigsten Bezugspunkt für die Texterkennung. Heute wird die Segmentierung eines Textes in Zeilen in den meisten Fällen automatisch mit Hilfe der CITlab Advanced LA ausgeführt werden. Es gibt aber immer wieder Fälle, wo ihr euch entweder sofort für das manuelle Ziehen der Baselines entscheiden werdet oder zumindest manuelle Korrekturen ausführen möchtet. Dazu ein paar praktische Tipps:

Die Baseline sollte immer möglichst genau unter dem „Mittelband“ der Zeile stehen, das heißt dort, wo „a“ „o“ „m“ „v“ etc. den Boden berühren. Falls man die Baseline manuell hinzufügt (was mit wenig Übung sehr fix geht), sollte man sich niemals mehr als ein bis zwei Strichstärken der Schrift von der Grundlinie entfernen (egal in welche Richtung). Die Baseline besteht aus einzelnen Punkten, die man beim manuellen hinzufügen selber setzt; abgeschlossen wird das setzen mit einem Doppelklick oder Enter auf den letzten Punkt. Baselines können auch vertikal gezogen werden. In einem Image und sogar einer Textregion können verschiedene Verlaufsrichtungen der Zeilen kombiniert werden (bspw. das typische „Postkartenlayout“).

Probleme bei der automatischen Line Detection treten immer dann gehäuft auf, wenn entweder die Wortabstände stark variieren oder besonders groß werden oder wenn die Zeilenführung abrupt geändert wird. In solchen Fällen kann es dazu kommen, dass die Baseline einer Zeile in Teilabschnitte zergliedert wird, die einzelne Wort umfassen. Für die Texterkennung und damit auch für die spätere Volltextsuche hat das keine Konsequenzen, weil ja nach wie vor der gesamte Text erfasst werden kann. Wer allerdings Wert auf ein perfektes Layout seines Volltextes legt, das den Zeilenfall der Vorlage wiedergibt, der muss hier korrigieren. Die Korrektur der Zeilen ist nicht immer notwendig, es muss allerdings auf die Reading Order geachtet werden, da sonst im späteren Transkript Unklarheiten entstehen können. Solche „zerrissenen“ Zeilen lassen sich am schnellsten mit dem Merge-Tool wieder zusammenführen.

 

Tipps & Tools
Was wenn der Text Kopf steht?
Die CITlab Advanced LA kann die Baseline einer kopfstehenden Zeile nicht korrekt erfassen. Baselines funktionieren immer in Leserichtung. Will man kopfstehende Zeilen erkennen lassen oder manuell festlegen, muss man entweder das Image drehen oder bei der Kopfstehenden Zeile die Baseline am oberen Bereich des Mittelbandes (gegen die Leserichtung) von rechts nach links ziehen. In beiden Fällen wird Transkribus das Image bei der Transkription in die lesefähige Richtung drehen.

Posted by Anna Brandt on

Was man über Collections & Documents wissen sollte

Release 1.7.1

Collections und Documents sind die beiden wichtigsten Kategorien, in denen man Material in Transkribus ordnen und verwalten kann. Eine Collection ist dabei nichts anders als eine Art Verzeichnis, in dem man zueinander gehörende Dokumente ablegt. Dabei ist wichtig zu wissen, dass einige Tools, die Transkribus bereitstellt nicht über die Grenzen eine Collection hinaus arbeiten. Dazu gehört die Tag-Suche, die für alle diejenigen, die ihre HTR-Ergebnisse mit Tags versehen möchten ein wichtiges Hilfsmittel darstellt.

Documents sind Teile der Collection, z.B. ein Konvolut Briefe oder eine Akte oder auch ein Einzelschriftstück. In unserem Projekt ist ein Document immer eine Akte. Documents können also viele Pages enthalten. Sie werden via Upload (über ftp oder direkt vom Rechner) in Transkribus geladen, wobei niemals ein einzelnes image, sondern immer ein Ordner mit images hochgeladen wird.

Einmal hochgeladen, ist die Möglichkeit, die einzelnen Seiten eines Documents zu bearbeiten, beschränkt. Über den Documentmanager besteht die Möglichkeit einzelne Seiten innerhalb des Documents zu verschieben oder zu löschen, es können sogar weitere Seiten hinzugefügt werden. Auch können images, wenn sie erst einmal hochgeladen sind, nicht mehr bearbeitet oder gedreht werden. Das bedeutet: vor dem Upload sollte geprüft werden, ob die images richtig ausgerichtet sind und ob das Document vollständig ist.

Aus diesem Grund werden in diesem Projekt Documents erst zusammengestellt und hochgeladen, wenn sie im Goobi Metadateneditor bearbeitet und dort auf Vollständigkeit geprüft sind und Struktur- und Metadaten erhalten haben. So ist gesichert, dass beim späteren Reimport der HTR-Ergebnisse dieselben tatsächlich auf eine identische Dokumentenstruktur übertragen werden.

Tipps & Tools
Documents können jederzeit zwischen verschiedenen Collections verteilt werden. Das geschieht über Verlinken (dann wird jede Änderung am Document, egal von wo aus sie erfolgt in alle Collections auf die es verlinkt ist übertragen) oder durch Duplizierung (wodurch tatsächlich zwei singuläre Documents entstehen, die auch unabhängig voneinander bearbeitet werden können).

Posted by Anna Brandt on

Textregionen

Release 1.7.1

Im Normalfall wird die automatische CITlab Advanced Layout Analysis in ihrer Standardeinstellung auf einem image nur eine einzige Textregion mit den dazugehörigen Baselines erkennen.

Es gibt aber auch einfache Layouts, bei denen sich der Einsatz mehrere TRs empfiehlt, bspw. wenn Marginalien, Rand- oder Fußnotizen und ähnliche wiederkehrende Elemente vorhanden sind. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen TR enthalten sind, zählt die Layoutanalyse die Zeilen schlicht der Reihenfolge nach von oben nach unten.

 

Diese „Reading Order“ nimmt keine Rücksicht darauf, wo ein Text inhaltlich eigentlich hingehört (bspw. eine Einfügung), sondern nur darauf wo er grafisch auf der Seite verortet ist. Eine automatisch erzeugte, aber unbefriedigende Reading Order zu korrigieren ist langweilig und manchmal aufwendig. Man kann das Problem oft vermeiden, indem man mehrere Textregions anlegt in denen die zusammengehörigen Texte und Zeilen wie in einer Box gut aufgehoben sind.

Dazu werden an den entsprechenden Stellen TRs manuell angelegt. Anschließend führt man die Line Detection mit CITlab Advanced durch um die Baselines automatisch hinzuzufügen.

 

Tipps & Tools
Wenn ihr die TRs manuell gezogen habt und nun von der CITlab Advanced LA die Baselines gezogen haben wollt, solltet ihr zuerst den Haken bei „Find Textregions“ herausnehmen, sonst werden die manuell gezogenen TRs gleich wieder überschrieben. Außerdem sollte man dafür sorgen, dass keine der einzelnen Textregionen aktiv ist, sonst wird nur diese bearbeitet.