Elisabeth Heigl


Posted by Elisabeth Heigl on

Ground Truth ist das A und O

Release 1.7.1

Die Grundlage für die Erstellung von HTR-Modellen ist der sogenannte Ground Truth (GT). Das ist erst einmal nichts weiter als eine maschinenlesbare Abschrift der historischen Handschrift, eine klassische litterale oder diplomatische Transkription, die zu 100% korrekt ist – „Groundt Truth“ eben.

Jeder Fehler in diesem Trainingsmaterial sorgt dafür, dass „die Maschine“ (neben vielem Richtigen) etwas Falsches lernt. Darum ist Qualitätsmanagement bei der Erstellung von GT so wichtig. Aber keine Panik, nicht jeder Fehler im GT hat verheerende Folgen, er darf sich nur nicht allzu oft wiederholen, sonst wird er für das Modell „chronisch“.

Um die Qualität des GT innerhalb unseres Projektes zu sichern, haben wir ein paar feste Transskriptionsrichtlinien aufgestellt, wie man sie auch aus Editionsprojekten kennt. Es lohnt sich, dabei von einer litteralen, zeichengenauen Transkription auszugehen. Auf Regulierungen jeder Art, auf Normalisierungen, etwa bei der vokalischen oder konsonantischen Verwendung von „u“ und „v“ muss dabei ebenso verzichtet werden, wie auf die Auflösung komplexer Abbreviaturen.

Wenn das Material nur ein oder zwei unterschiedliche Handschriften oder Schreiberhände enthält, genügen um die 100 Seiten transkribierter Text für ein erstes Training, um ein Basismodell zu erstellen, mit dem man weiterarbeiten kann. Die Anzahl der im Text verwendeten Sprachen spielt dabei übrigens nach unseren Erfahrungen keine Rolle, denn die HTR-Modelle arbeiten im Regelfall ohne Wörterbücher.

Neben der herkömmlichen Transkription kann Ground Truth auch halbautomatisiert erstellt werden. Dazu bietet Transkribus ein spezielles Tool- Text2Image – das in einem anderen post vorgestellt wird.

Posted by Elisabeth Heigl on

Transkriptionspraxis – erste Entscheidungen

In Transkribus fertigen wir Abschriften an um in erster Linie Trainingsmaterial für unsere HTR-Modelle zu erzeugen – sogenannten „Ground Truth“. Dafür gibt es bereits eine Reihe von Empfehlungen für einfache und fortgeschrittene Ansprüche.

Unser Tun ist also nicht auf eine kritische Edition angelegt. Dennoch benötigen wir so etwas wie Richtlinien, gerade wenn wir im Team erfolgreich sein wollen und mehrere Transcriber an denselben Texten arbeiten. Unsere Richtlinien orientieren sich dabei nicht an den Bedürfnissen des gelehrten Lesers, wie das klassische Editionsrichtlinien tun. Stattdessen stellen wir die Bedürfnisse der „Maschine“ und die Brauchbarkeit des HTR-Ergebnisses für eine künftige Volltextsuche in den Mittelpunkt unserer ersten Überlegungen. Dabei kann natürlich nur ein Kompromiss herauskommen.

Das Trainingsmaterial soll der Maschine helfen zu erkennen, was auch wir sehen, es muss also genau sein und nicht durch Interpretation verfälscht, nur so kann die Maschine „das richtige“ Lesen lernen – dieser Grundsatz hat Priorität und gilt als eine Art Leitgedanke für alle weiteren Entscheidungen hinsichtlich der Transkriptionen.

Viele Fragen der Textbehandlung, die uns aus Editionsprojekten vertraut sind, müssen auch hier entschieden werden. In unserem Projekt verwenden wir grundsätzlich die litterale oder diplomatische Transkription, das heißt wir fertigen zeichengetreue Abschriften an. Das betrifft das gesamte Spektrum der Buchstaben und die Interpunktionszeichen. Um nur ein Beispiel zu geben: die konsonantische und vokalische Verwendung von „u“ und „v“ wird nicht reguliert, wenn der Schreiber „unndt“ meint und „vnndt“ schreibt, übernehmen wir eben litteral.

Auch wenn die Perfektion der Trainingsdaten hohe Priorität genießt, spielen bei uns noch andere Überlegungen schon bei der Erstellung des GT eine Rolle. Wir möchten die HTR-Ergebnisse über eine Volltextsuche erschließen. Das heißt, ein Benutzer muss zunächst ein Suchwort formulieren, bevor er eine Antwort erhält. Da bestimmte Zeichen, etwa das lange „ſ“ (s) kaum Bestandteil eines Suchausdrucks sein werden, regulieren wir in solchen und ähnlichen Fällen die Transkription.

Dabei nutzen wir einen gewissen Spielraum. Bei den Symbolen regulieren wir lediglich das Klammerzeichen, das in den Handschriften unterschiedlich dargestellt sein kann. Ähnlich behandeln wir Worttrennungszeichen am Ende der Zeile.

Für unleserliche Stellen wird in keinem Falle das übliche „[…]“ verwendet. Der Textbereich wird durch den Tag „unclear“ markiert.

Posted by Elisabeth Heigl on

WebUI & Expert Client

Wie schon gesagt, bezieht sicher dieser Blog fast ausschließlich auf den Expert Client von Transkribus. Er bietet eine Vielzahl von Möglichkeiten, deren Beherrschung ein gewisses Maß an Kenntnissen voraussetzen.

Das WebUI ist wesentlich beschränkter im Funktionsumfang, aber eben auch übersichtlicher. Im WebUI ist es nicht möglich, eine automatische Layout Analyse durchzuführen oder eine HTR zu starten, geschweige denn ein Modell zu trainieren oder in das User Management einzugreifen. Dafür ist es aber auch nicht gedacht.

Das WebUI ist das ideale Interface für crowd projects mit vielen Freiwilligen, die v.a. Transkriptionen anfertigen oder Inhalte kommentieren und taggen. Und genau dafür wird es auch am häufigsten eingesetzt. Die Koordination eines solchen crowd projects wird also immer über den Expert Client ausgeführt werden müssen.

Die Vorteile des WebUI liegen darin, dass es voraussetzungslos zu benutzen ist (wie der Name schon sagt eine Web-Applikation, die über den Browser aufgerufen wird, keine Installation, keine Updates etc.). Außerdem ist es so gut wie selbsterklärend und kann ohne jegliche Vorkenntnisse von fast jedermann benutzt werden.

 

Tipps & Tools
Auch das WebUI hat ein Versions management – etwas angepasst für crowd projects. Wenn ein Transcriber mit der zu bearbeitenden Seite fertig ist, setzt er den Edit Status auf „ready for review“, so dass sein Supervisor weiß, dass er nun gefragt ist.

Posted by Elisabeth Heigl on

Projektworkflow und Informationssystem

Der Weg von der Akte im Archiv zu ihrer digitalen und HTR-basierten Präsentation auf der Onlineplattform führt über diverse Station. Diese Schritte stellen den Gesamtworkflow des Projekts dar und basieren auf einer breiten technischen Infrastruktur. Der Workflow unseres auf drei Standorte verteilten Projektes besteht grob aus sechs Hauptstationen:

  1. Vorbereitungen der Akten (reastauratorisch, archiviarisch, digital)
  2. Scannen
  3. Anreicherung mit Struktur- und Metadaten
  4. Bereitstellung für Transkribus
  5. Automatische Handschriftenerkennung (HTR)
  6. Onlinepräsentation in der Digitalen BibliothekMecklenburg-Vorpommern

Es hat sich als hilfreich erwiesen, dass wir nicht nur die einzelnen Schritte im Vorfeld festgelegt haben, sondern auch von Beginn an die Verantwortlichen, d.h. Experten für die einzelnen Aufgaben sowie Koordinatoren für die Stations- und Standortübergreifenden Schritte. Dadurch ist allen Beteiligten immer die jeweilige Ansprechpartnerin bekannt und können so offene Fragen leichter beantwortet und eventuell auftretende Probleme effizienter gelöst werden.

Insbesondere bei der Digitalisierung der Spruchakten sind wir von Beginn an nicht chronologisch vorgegangen. Wir haben den Bestand also nicht von vorne bis hinten „durchgescannt“. Stattdessen haben wir zunächst einzelne, repräsentative Bände zwischen 1580 und 1675 ausgewählt und bearbeitet, um zunächst starke HTR-Modelle zu erstellen. Erst anschließend wurden die „Lücken“ gefüllt. Eine fortlaufenden Dokumentation des Projektfortschritts mit seinen einzelnen Bereichen und Etappen ist hier wichtig, damit es nicht unübersichtlich wird. Dafür gibt es viele Möglichkeiten.

Wir führen – mittlerweile sehr bunte – Exceltabellen über den Bearbeitungsstand der verschiedenen Bestände. Sie bilden aber nur Teilprozesse ab und sind zudem nur den Koordinatoren zugänglich, die sie pflegen und die Projektfortschritte in ihrem Bereich überwachen müssen. Eine weitere Möglichkeit stellt der #Goobi-Workflow dar. Hier können neben den Arbeitsschritten, die ohnehin in Goobi stattfinden frei auch weitere Schritte als Aufgaben festgelegt werden, die nicht im Zusammenhang mit Goobi stehen müssen. Sie können wie die übrigen Aufgaben auch angenommen und abgeschlossen werden, und so den Projektfortschritt abbilden. Voraussetzung ist hier aber, dass alle Projektbeteiligten mit diesem Workflowsystem vertraut sein müssen. Wo das nicht so ist, muss ein „externes“ Informationssystem gewählt werden, auf das alle zugreifen können.

Die drei Standorte unseres Projekts führen daher gemeinsam ein Wiki (E-Collaboration).

Posted by Elisabeth Heigl on

Scannen und Strukturdaten

Die Spruchakten scannen wir auf Bookeye4 Buchscannern der Firma Image Access in Kombination mit der Scansoftware UCC (Universal Capturing Client) der Firma Intranda. UCC erlaubt nicht nur die Erfassung von Strukturdaten währendes des Scanprozesses, sondern ist auch direkt mit dem Goobi-Server verbunden, auf dem die digitalen Prozesse unseres Projektes (jenseits der Handschriftenerkennung) gesteuert werden. In Goobi bereits angelegte Vorgänge können also im UCC aufgerufen, mit Digitalisaten und Strukturdaten ‚bestückt‘ und zum Goobi-Server exportiert werden.

Wir scannen einheitlich in 400 dpi und mit 24-bit Farbtiefe. Die erzeugten Originaldateien werden als unkomprimierte TIF-Dateien gespeichert. Zur weiteren Bearbeitung und für die Präsentation in der Digitalen Bibliothek M-V werden sie allerdings in komprimiertes JPG-Format kopiert.

UCC ermöglicht das Erfassen der Strukturdaten während des Scannens. Das bedeutet, dass der Scanoperator bereits beim Scannen für zusammengehörige Seiten der Akte ein Strukturelement setzen kann. Jedes einzelne Responsum (d.h. jeder Fall) erhält das Strukturelement „Vorgang“. In der späteren Bearbeitung der Metadaten müssen diesen dann lediglich beschreibende Haupttitel hinzugefügt werden.

Posted by Elisabeth Heigl on

Wissen was man will

Ein Digitalisierungsprojekt mit Handschriftentexterkennung kann ganz unterschiedliche Zielsetzungen haben. Die reichen von der kritischen digitalen Edition über die Bereitstellung von Handschriften als Volltexte bis hin zur Erschließung großer Textkorpora über Key Word Spotting. Alle drei Zielsetzungen ermöglichen unterschiedliche Herangehensweisen, die großen Einfluss auf den technischen und personellen Aufwand haben.

In diesem Projekt interessieren nur die letzten beiden Zieldefinitionen, da eine kritische Edition nicht angestrebt wird, auch wenn die in diesem Projekt generierten Volltexte als Grundlage einer solchen dienen können.

Wir streben eine möglichst vollständige Erschließung des Inhalts der Handschriften durch automatische Texterkennung an. Die Ergebnisse sollen anschließend in der Digitalen Bibliothek Mecklenburg Vorpommern online gestellt werden. Dort steht zunächst eine Suche zur Verfügung, die die Treffer im image selbst anzeigt. Der Nutzer, der über ausreichend paläografische Kenntnisse verfügt, kann den Trefferkontext im image selbst erschließen oder auf eine moderne Volltextansicht umschalten, oder sogar nur diese benutzen.

Posted by Elisabeth Heigl on

Warum HTR alles verändert

Seit einigen Jahren widmen sich Archive und Bibliotheken in immer größerem Umfang der Digitalisierung von historischen Handschriften. Die Strategien sind dabei recht unterschiedlich. Die einen möchten ihre „Kostbarkeiten“ zeitgemäß präsentieren, andere möchten umfangreichere Bestände in zweckmäßiger Form für die Benutzung verfügbar machen. Die Vorteile der Digitalisierung liegen auf der Hand. Die Originalquellen werden geschont und die interessierten Forscher und Laien können unabhängig von Ort und Zeit auf das Material zugreifen, ohne Tage oder Wochen in Lesesälen zubringen zu müssen. Das ist ein enormer Fortschritt, gemessen an der Praxis des 20. Jahrhunderts.

Solche digitalen Angebote – die zunächst nicht mehr als ein digitales Abbild der historischen Originalquelle bereitstellen – werden also mit großem Aufwand, sowohl finanziell als auch personell, erarbeitet und unterhalten. Schaut man auf die Zielgruppe dieser Angebote, dann stellt man fest, dass es sich an dieselben Adressaten richtet, die auch Archive und Bibliotheken aufsuchen, vielleicht auch einige mehr, die aber alle über die Fertigkeit verfügen, solche historischen Handschriften überhaupt entziffern zu können. Optimistisch geschätzt, reden wir also von ein bis zwei Prozent der Bevölkerung. Für alle übrigen sind diese Digitalisate lediglich schön anzusehen.

Dieses Bild sollte man sich vor Augen halten, wenn man verstehen möchte, warum HTR in der Geschichte der digitalen Erschließung und Nutzung historischer Handschriften ein völlig neues Kapitel aufschlägt. Mit einem Satz könnte man sagen: HTR gestattet den Schritt von der einfachen Digitalisierung zur digitalen Transformation historischer Quellen. Dank der HTR wird nämlich nicht nur das digitale Abbild einer Handschrift sondern auch ihr Inhalt in einer für jedermann lesbaren und von Maschinen durchsuchbaren Form – und zwar über hunderttausende Seiten hinweg – verfügbar gemacht.

Für die Nutzung historischer Handschriften bedeutet das nicht weniger, als das ihr Inhalt einen Interessentenkreis geöffnet werden kann, dem er bislang verschlossen blieb oder wenigstens nicht ohne weiteres erschließbar war. Damit ist nicht nur der Kreis der Laienforscher angesprochen. Auch für wissenschaftliche Fachvertreter aus Disziplinen, in denen eine historische Hilfswissenschaften nicht zum klassischen Ausbildungskanon gehören, wird die Zugänglichkeit zu den Inhalten der Quellen erleichtert. Neue Konstellationen interdisziplinären Forschens werden so ermöglicht. Und schließlich: da die Inhalte der Handschriften nun maschinell auswertbar sind, lassen sich Fragestellungen und Methoden der Digital Humanities weitaus leichter an das Material herantragen als zuvor.

Tipps & Tools
Lesetipp: Mühlberger, Archiv 4.0 oder warum die automatisierte Texterkennung alles verändern wird Tagungsband Archivtag Wolfsburg, in: Massenakten – Massendaten. Rationalisierung und Automatisierung im Archiv (Tagungsdokumentationen zum Deutschen Archivtag, Band 22), hg. v. VdA, Fulda 2018, S. 145-156.