Baselines

Release 1.7.1

Die Baseline ist die Grundlinie der Schriftzeile und bildet den wichtigsten Bezugspunkt für die Texterkennung. Heute wird die Segmentierung eines Textes in Zeilen in den meisten Fällen automatisch mit Hilfe der CITlab Advanced LA ausgeführt werden. Es gibt aber immer wieder Fälle, wo ihr euch entweder sofort für das manuelle Ziehen der Baselines entscheiden werdet oder zumindest manuelle Korrekturen ausführen möchtet. Dazu ein paar praktische Tipps:

Die Baseline sollte immer möglichst genau unter dem „Mittelband“ der Zeile stehen, das heißt dort, wo „a“ „o“ „m“ „v“ etc. den Boden berühren. Falls man die Baseline manuell hinzufügt (was mit wenig Übung sehr fix geht), sollte man sich niemals mehr als ein bis zwei Strichstärken der Schrift von der Grundlinie entfernen (egal in welche Richtung). Die Baseline besteht aus einzelnen Punkten, die man beim manuellen hinzufügen selber setzt; abgeschlossen wird das setzen mit einem Doppelklick oder Enter auf den letzten Punkt. Baselines können auch vertikal gezogen werden. In einem Image und sogar einer Textregion können verschiedene Verlaufsrichtungen der Zeilen kombiniert werden (bspw. das typische „Postkartenlayout“).

Probleme bei der automatischen Line Detection treten immer dann gehäuft auf, wenn entweder die Wortabstände stark variieren oder besonders groß werden oder wenn die Zeilenführung abrupt geändert wird. In solchen Fällen kann es dazu kommen, dass die Baseline einer Zeile in Teilabschnitte zergliedert wird, die einzelne Wort umfassen. Für die Texterkennung und damit auch für die spätere Volltextsuche hat das keine Konsequenzen, weil ja nach wie vor der gesamte Text erfasst werden kann. Wer allerdings Wert auf ein perfektes Layout seines Volltextes legt, das den Zeilenfall der Vorlage wiedergibt, der muss hier korrigieren. Die Korrektur der Zeilen ist nicht immer notwendig, es muss allerdings auf die Reading Order geachtet werden, da sonst im späteren Transkript Unklarheiten entstehen können. Solche „zerrissenen“ Zeilen lassen sich am schnellsten mit dem Merge-Tool wieder zusammenführen.

 

Tipps & Tools
Was wenn der Text Kopf steht?
Die CITlab Advanced LA kann die Baseline einer kopfstehenden Zeile nicht korrekt erfassen. Baselines funktionieren immer in Leserichtung. Will man kopfstehende Zeilen erkennen lassen oder manuell festlegen, muss man entweder das Image drehen oder bei der Kopfstehenden Zeile die Baseline am oberen Bereich des Mittelbandes (gegen die Leserichtung) von rechts nach links ziehen. In beiden Fällen wird Transkribus das Image bei der Transkription in die lesefähige Richtung drehen.