Elemente

Release 1.7.1

Für Handschriftentexterkennung ist die automatische Layoutanalyse von fundamentaler Bedeutung – ohne Layoutanalyse keine Texterkennung.
Die Layoutanalye sorgt dafür, dass das Image in verschiedene Bereiche abgegrenzt wird, und zwar in solche, die nicht weiter beachtet werden müssen und andere, die den zu erkennenden Text enthalten. Diese Bereiche heißen „Text Regions“ (TR, im Bild grün). Um innerhalb der Textregions Zeichen oder Buchstaben erkennen zu können, benötigt Transkribus „Baselines“ (BL, im Bild rot). Sie werden dort gezogen, wo sich die Grundlinie der Schrift befindet. Baselines werden von einer eigenen Region umgeben, die „line“ (im Bild blau) genannt wird, für den Anwender in der Praxis aber keine Relevanz hat. Die drei Elemente Text Region-Line-Baseline stehen in einem Eltern-Kind-Verhältnis zueinander und können ohne das jeweils übergeordnete Element nicht existieren – keine Baseline ohne Line und keine Line ohne Textregion. Man sollte dieses Elemente, ihre Funktionen und ihr Verhältnis zueinander kennen, v.a. wenn man einmal manuell am Layout arbeiten muss.

Manuelle Layouts sollten eher die Ausnahme als die Regel sein. Denn für die meisten Anwendungsfälle hält Transkribus ein äußerst mächtiges Werkzeug bereit – die „CITlab Advances Layout Analysis“. Es ist das Transkribus Standard-Modell, das seit 2017 erfolgreich eingesetzt wird und in den allermeisten Fällen sehr gute Ergebnisse bei der automatischen Segmentierung liefert. Diese automatische Layoutanalyse kann für eine einzelne Seite, eine Auswahl von Seiten oder ein ganzes Dokument eingesetzt werden.

Alle Elemente zur Segmentierung können auch manuell gesetzt, verändert und bearbeitet werden, was sich bei anspruchsvolleren Layouts, wenn sie nur vereinzelt vorkommen, auch empfiehlt. Dafür steht eine umfangreiche Toolbar zur Verfügung.