Was Du hier findest und was nicht
Dieser Blog berichtet hauptsächlich über unsere Arbeit mit Transkribus. Daneben stellen wir aber auch den Projektworkflow und unsere Erfahrung mit den Scanprozessen, den dabei angewendeten Parametern, der Erstellung von Struktur- und Metadaten und die Präsentation der Projektergebnisse im Viewer der Digitalen Bibliothek Mecklenburg-Vorpommern vor.
Dieser Blog ist kein Handbuch. Erwarte also nicht, dass hier step-by-step-Anleitungen für einzelne Aufgaben, die man in Transkribus erledigen kann, gegeben werden (obwohl wir das manchmal auch tun). Dafür gibt es eine ganze Reihe guter und bewährter How-To’s, die das Transkribus-Team und user in den letzten Jahren erarbeitet haben. Nein – hier wird über praktische Erfahrungen berichtet und ein paar Tipps & Tricks verraten.
Transkribus hat inzwischen zwei Interfaces: den „Expert-Client“, den Du hier herunterladen kannst, und des Web-User-Interface (WebUI), das Du unter dieser Adresse erreichst. In diesem Blog geht es fast nur um den Expert-Client, weil nur er den vollen Funktionsumfang bereitstellt, den man benötigt, um anspruchsvolle Projekte zu bewältigen. Unter welchen Umständen und warum die Nutzung des WebUI trotzdem sinnvoll und angebracht ist, erklären wir hier.
Unsere Erfahrungen beziehen sich auf ein mittleres large-scale-project. Hier werden ca. 250.000 images verarbeitet. Entsprechend ausgerichtet ist unser Fokus. Wir setzen die Möglichkeiten von Transkribus ein, um große Mengen von Dokumenten durch automatisierte Texterkennung zu erschließen, mit Inhalten anzureichern und online zur Verfügung zu stellen. Dabei soll die Durchsuchbarkeit mittels Volltextsuche oder Keyword Spotting ermöglicht werden. Die Art der eingesetzten Mittel und der Anspruch an die Ergebnisse sind an diesem Ziel ausgerichtet. Projekte mit geringerem Umfang werden vielleicht differenzierte Methoden und subtilere Mittel anwenden; nichtsdestotrotz, auch für sie finden sich hier einige nützliche Erfahrungen.
Tipps & Tools
Lesetipp: Günter Mühlberger, Tamara Terbul: Handschriftenerkennung für historische Schriften. Die Transkribus Plattform