Category Archives

3 Articles

Posted by Elisabeth Heigl on

Mehrere Dokumente gleichzeitig bearbeiten

Version 1.15.1

Bislang waren wir es gewöhnt die Layout Analyse und auch die HTR stets für das Dokument auszulösen, in dem wir uns gerade jeweils befanden. Mittlerweile ist es allerdings möglich, beide Schritte für sämtliche bzw. für ausgesuchte Dokumente der Kollektion, in der wir uns gerade jeweils befinden, auszulösen. Wir beschreiben gleich, wie das geht – aber zunächst einmal warum wir uns darüber sehr freuen:

Um die Ergebnisse unserer frisch trainierten Modelle zu überprüfen, haben wir in einer separaten Kollektion Spruchakten-Testsets angelegt. Wie genau und warum, könnt ihr an anderer Stelle nachlesen. Für jedes Dokument, aus dem wir GT ins Training gegeben haben, existiert also in der Testset-Kollektion ein eigenes Testset-Dokument.

Wenn ein neues HTR-Modell fertig trainiert hat und wir ganz neugierig sind, wie es im Vergleich zu den bisherigen Modellen abschneiden wird, lassen wir es über jedes der Testsets laufen und anschließend die CER berechnen. Nach über zwei Jahren Trainingstätigkeit ist unsere Testset-Kollektion mittlerweile ziemlich voll; knapp 70 Testsets befinden sich schon darin.

Stellt euch vor, wie aufwändig es bisher war, jedes Testset einzeln zu öffnen, um jeweils die neue HTR auszulösen. Da musste man auch bei nur 40 Teststes schon sehr neugierig sein. Und stellt euch nun vor, welche Erleichterung es bringt, dass wir die HTR (und auch die LA) mit einem Klick für alle Dokumente gleichzeitig auslösen können. Das dürfte alle freuen, die sehr viele kleine Dokumente, wie z.B. Karteikarten in einer Kollektion bearbeiten.

Und wie geht das nun? Unter den Layout-Analyse-Tools sieht man es eigentlich sofort: In Rot steht da unter „Document Selection“, die neue Auswahlmöglichkeit „Current collection“ mit der sich die gesamte aktuelle Kollektion für den folgenden Schritt auswählen lässt.

Es reicht hier allerdings nicht aus, einfach nur „Current Selection“ zu markieren und dann die LA auszulösen; ihr müsst vorher über „Choose docs…“ immer erst in die Auswahl hineingehen. Entweder bestätigt ihr dort einfach nur die Vorauswahl (alle docs der collection) oder ihr wählt gezielt einzelne doc aus.

Für die HTR erscheint die gleiche Auswahlmöglichkeit erst im Auswahlfenster zur „Text Recognition“. Auch hier könnt ihr dann für den folgenden Schritt die „Current collection“ auswählen. Und auch hier müsst ihr über „choose docs….“ die Auswahl noch einmal bestätigen.

Posted by Dirk Alvermann on

Warum HTR alles verändert

Seit einigen Jahren widmen sich Archive und Bibliotheken in immer größerem Umfang der Digitalisierung von historischen Handschriften. Die Strategien sind dabei recht unterschiedlich. Die einen möchten ihre „Kostbarkeiten“ zeitgemäß präsentieren, andere möchten umfangreichere Bestände in zweckmäßiger Form für die Benutzung verfügbar machen. Die Vorteile der Digitalisierung liegen auf der Hand. Die Originalquellen werden geschont und die interessierten Forscher und Laien können unabhängig von Ort und Zeit auf das Material zugreifen, ohne Tage oder Wochen in Lesesälen zubringen zu müssen. Das ist ein enormer Fortschritt, gemessen an der Praxis des 20. Jahrhunderts.

Solche digitalen Angebote – die zunächst nicht mehr als ein digitales Abbild der historischen Originalquelle bereitstellen – werden also mit großem Aufwand, sowohl finanziell als auch personell, erarbeitet und unterhalten. Schaut man auf die Zielgruppe dieser Angebote, dann stellt man fest, dass es sich an dieselben Adressaten richtet, die auch Archive und Bibliotheken aufsuchen, vielleicht auch einige mehr, die aber alle über die Fertigkeit verfügen, solche historischen Handschriften überhaupt entziffern zu können. Optimistisch geschätzt, reden wir also von ein bis zwei Prozent der Bevölkerung. Für alle übrigen sind diese Digitalisate lediglich schön anzusehen.

Dieses Bild sollte man sich vor Augen halten, wenn man verstehen möchte, warum HTR in der Geschichte der digitalen Erschließung und Nutzung historischer Handschriften ein völlig neues Kapitel aufschlägt. Mit einem Satz könnte man sagen: HTR gestattet den Schritt von der einfachen Digitalisierung zur digitalen Transformation historischer Quellen. Dank der HTR wird nämlich nicht nur das digitale Abbild einer Handschrift sondern auch ihr Inhalt in einer für jedermann lesbaren und von Maschinen durchsuchbaren Form – und zwar über hunderttausende Seiten hinweg – verfügbar gemacht.

Für die Nutzung historischer Handschriften bedeutet das nicht weniger, als das ihr Inhalt einen Interessentenkreis geöffnet werden kann, dem er bislang verschlossen blieb oder wenigstens nicht ohne weiteres erschließbar war. Damit ist nicht nur der Kreis der Laienforscher angesprochen. Auch für wissenschaftliche Fachvertreter aus Disziplinen, in denen eine historische Hilfswissenschaften nicht zum klassischen Ausbildungskanon gehören, wird die Zugänglichkeit zu den Inhalten der Quellen erleichtert. Neue Konstellationen interdisziplinären Forschens werden so ermöglicht. Und schließlich: da die Inhalte der Handschriften nun maschinell auswertbar sind, lassen sich Fragestellungen und Methoden der Digital Humanities weitaus leichter an das Material herantragen als zuvor.

Tipps & Tools
Lesetipp: Mühlberger, Archiv 4.0 oder warum die automatisierte Texterkennung alles verändern wird Tagungsband Archivtag Wolfsburg, in: Massenakten – Massendaten. Rationalisierung und Automatisierung im Archiv (Tagungsdokumentationen zum Deutschen Archivtag, Band 22), hg. v. VdA, Fulda 2018, S. 145-156.

 

Posted by Anna Brandt on

Was Du hier findest und was nicht

Dieser Blog berichtet hauptsächlich über unsere Arbeit mit Transkribus. Daneben stellen wir aber auch den Projektworkflow und unsere Erfahrung mit den Scanprozessen, den dabei angewendeten Parametern, der Erstellung von Struktur- und Metadaten und die Präsentation der Projektergebnisse im Viewer der Digitalen Bibliothek Mecklenburg-Vorpommern vor.

Dieser Blog ist kein Handbuch. Erwarte also nicht, dass hier step-by-step-Anleitungen für einzelne Aufgaben, die man in Transkribus erledigen kann, gegeben werden (obwohl wir das manchmal auch tun). Dafür gibt es eine ganze Reihe guter und bewährter How-To’s, die das Transkribus-Team und user in den letzten Jahren erarbeitet haben. Nein – hier wird über praktische Erfahrungen berichtet und  ein paar Tipps & Tricks verraten.

Transkribus hat inzwischen zwei Interfaces: den „Expert-Client“, den Du hier  herunterladen kannst, und des Web-User-Interface (WebUI), das Du unter dieser Adresse  erreichst. In diesem Blog geht es fast nur um den Expert-Client, weil nur er den vollen Funktionsumfang bereitstellt, den man benötigt, um anspruchsvolle Projekte zu bewältigen. Unter welchen Umständen und warum die Nutzung des WebUI trotzdem sinnvoll und angebracht ist, erklären wir hier.

Unsere Erfahrungen beziehen sich auf ein mittleres large-scale-project. Hier werden ca. 250.000 images verarbeitet. Entsprechend ausgerichtet ist unser Fokus. Wir setzen die Möglichkeiten von Transkribus ein, um große Mengen von Dokumenten durch automatisierte Texterkennung zu erschließen, mit Inhalten anzureichern und online zur Verfügung zu stellen. Dabei soll die Durchsuchbarkeit mittels Volltextsuche oder Keyword Spotting ermöglicht werden. Die Art der eingesetzten Mittel und der Anspruch an die Ergebnisse sind an diesem Ziel ausgerichtet. Projekte mit geringerem Umfang werden vielleicht differenzierte Methoden und subtilere Mittel anwenden; nichtsdestotrotz, auch für sie finden sich hier einige nützliche Erfahrungen.

Tipps & Tools
Lesetipp: Günter Mühlberger, Tamara Terbul: Handschriftenerkennung für historische Schriften. Die Transkribus Plattform