Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.