Zu kurze Textzeilen automatisch Entfernen
Release 1.12.0
Viele von euch kennen sicher das Tool „Remove small text regions“, das es seit gut einem Jahr bei Transkribus gibt. Jetzt kommt sein kleiner Bruder „Remove small text lines“. Endlich – ein Tool das viele Anwender sich lange gewünscht haben.
Bei der Citlab Advanced Layout Analyse (auch auf völlig „normalen“ Seiten) kommt es immer wieder vor, das Textregionen oder Baselines erkannt werden, wo wir sie nicht brauchen oder wollen.
Häufig werden in verzierten Initialen oder auch zwischen den einzelnen Zeilen „Mini-Baselines“ erkannt. Das HTR-Modell kann damit natürlich später bei der Texterkennung nichts anfangen und im Transkript stehen dann „leere“ Zeilen. Mit diesem Tool könnt ihr dies Baselines leicht und automatisch Löschen
Versucht es selbst einmal. Wir haben die besten Erfahrungen damit gemacht, wenn wir den Schwellenwert auf 0,05 einstellen.