Monthly Archives

2 Articles

Posted by Dirk Alvermann on

Zu kurze Textzeilen automatisch Entfernen

Release 1.12.0

Viele von euch kennen sicher das Tool „Remove small text regions“, das es seit gut einem Jahr bei Transkribus gibt. Jetzt kommt sein kleiner Bruder „Remove small text lines“. Endlich – ein Tool das viele Anwender sich lange gewünscht haben.

Bei der Citlab Advanced Layout Analyse (auch auf völlig „normalen“ Seiten) kommt es immer wieder vor, das Textregionen oder Baselines erkannt werden, wo wir sie nicht brauchen oder wollen.

Häufig werden in verzierten Initialen oder auch zwischen den einzelnen Zeilen „Mini-Baselines“ erkannt. Das HTR-Modell kann damit natürlich später bei der Texterkennung nichts anfangen und im Transkript stehen dann „leere“ Zeilen. Mit diesem Tool könnt ihr dies Baselines leicht und automatisch Löschen

Versucht es selbst einmal. Wir haben die besten Erfahrungen damit gemacht, wenn wir den Schwellenwert auf 0,05 einstellen.

Posted by Dirk Alvermann on

Automatisch ausgewählte Validierungssets

Über Validierung und die verschiedenen Arten, ein Validierungsset zusammenzustellen, findet ihr in diesem Blog schon einige Beiträge.

Seit der letzten Version von Transkribus (1.12.0) gibt es eine neue Möglichkeit, Validierungssets zu erstellen. Dabei entnimmt Transkribus während der Zusammenstellung des Trainings aus dem Train-Set einen bestimmten Anteil (2%, 5% oder 10%) des Ground Truth und bildet daraus automatisch ein Validierungsset. Dieses Set besteht aus zufällig ausgewählten Seiten.

Gebildet werden diese Validierungssets im Trainings-Tool von Transkribus. Ihr beginnt dafür wie üblich mit der Eingabe der Trainingsparameter für das Modell. Bevor ihr aber den Ground Truth zum Train-Set hinzufügt, wählt ihr den gewünschten Prozentsatz für das Validierungsset aus. Diese Reihenfolge ist wichtig. Bei jedem neuen Dokument, das ihr jetzt dem Train-Set hinzufügt, werden von Transkribus die entsprechenden Seiten für das Validierungsset extrahiert. Das ist auch schon alles.

Das neue Tool eignet sich sehr gut für große Modelle mit entsprechend viel Ground Truth, vor allem, wenn euch die Aufstellung besonderer Validierungssets nicht wichtig ist, oder es euch für repräsentative schwer fällt.