Monthly Archives

8 Articles

Posted by Anna Brandt on

Elemente

Release 1.7.1

Für Handschriftentexterkennung ist die automatische Layoutanalyse von fundamentaler Bedeutung – ohne Layoutanalyse keine Texterkennung.
Die Layoutanalye sorgt dafür, dass das Image in verschiedene Bereiche abgegrenzt wird, und zwar in solche, die nicht weiter beachtet werden müssen und andere, die den zu erkennenden Text enthalten. Diese Bereiche heißen „Text Regions“ (TR, im Bild grün). Um innerhalb der Textregions Zeichen oder Buchstaben erkennen zu können, benötigt Transkribus „Baselines“ (BL, im Bild rot). Sie werden dort gezogen, wo sich die Grundlinie der Schrift befindet. Baselines werden von einer eigenen Region umgeben, die „line“ (im Bild blau) genannt wird, für den Anwender in der Praxis aber keine Relevanz hat. Die drei Elemente Text Region-Line-Baseline stehen in einem Eltern-Kind-Verhältnis zueinander und können ohne das jeweils übergeordnete Element nicht existieren – keine Baseline ohne Line und keine Line ohne Textregion. Man sollte dieses Elemente, ihre Funktionen und ihr Verhältnis zueinander kennen, v.a. wenn man einmal manuell am Layout arbeiten muss.

Manuelle Layouts sollten eher die Ausnahme als die Regel sein. Denn für die meisten Anwendungsfälle hält Transkribus ein äußerst mächtiges Werkzeug bereit – die „CITlab Advances Layout Analysis“. Es ist das Transkribus Standard-Modell, das seit 2017 erfolgreich eingesetzt wird und in den allermeisten Fällen sehr gute Ergebnisse bei der automatischen Segmentierung liefert. Diese automatische Layoutanalyse kann für eine einzelne Seite, eine Auswahl von Seiten oder ein ganzes Dokument eingesetzt werden.

Alle Elemente zur Segmentierung können auch manuell gesetzt, verändert und bearbeitet werden, was sich bei anspruchsvolleren Layouts, wenn sie nur vereinzelt vorkommen, auch empfiehlt. Dafür steht eine umfangreiche Toolbar zur Verfügung.

Posted by Anna Brandt on

Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.

 

 

 

Posted by Dirk Alvermann on

WebUI & Expert Client

Wie schon gesagt, bezieht sicher dieser Blog fast ausschließlich auf den Expert Client von Transkribus. Er bietet eine Vielzahl von Möglichkeiten, deren Beherrschung ein gewisses Maß an Kenntnissen voraussetzen.

Das WebUI ist wesentlich beschränkter im Funktionsumfang, aber eben auch übersichtlicher. Im WebUI ist es nicht möglich, eine automatische Layout Analyse durchzuführen oder eine HTR zu starten, geschweige denn ein Modell zu trainieren oder in das User Management einzugreifen. Dafür ist es aber auch nicht gedacht.

Das WebUI ist das ideale Interface für crowd projects mit vielen Freiwilligen, die v.a. Transkriptionen anfertigen oder Inhalte kommentieren und taggen. Und genau dafür wird es auch am häufigsten eingesetzt. Die Koordination eines solchen crowd projects wird also immer über den Expert Client ausgeführt werden müssen.

Die Vorteile des WebUI liegen darin, dass es voraussetzungslos zu benutzen ist (wie der Name schon sagt eine Web-Applikation, die über den Browser aufgerufen wird, keine Installation, keine Updates etc.). Außerdem ist es so gut wie selbsterklärend und kann ohne jegliche Vorkenntnisse von fast jedermann benutzt werden.

 

Tipps & Tools
Auch das WebUI hat ein Versions management – etwas angepasst für crowd projects. Wenn ein Transcriber mit der zu bearbeitenden Seite fertig ist, setzt er den Edit Status auf „ready for review“, so dass sein Supervisor weiß, dass er nun gefragt ist.

Posted by Elisabeth Heigl on

Projektworkflow und Informationssystem

Der Weg von der Akte im Archiv zu ihrer digitalen und HTR-basierten Präsentation auf der Onlineplattform führt über diverse Station. Diese Schritte stellen den Gesamtworkflow des Projekts dar und basieren auf einer breiten technischen Infrastruktur. Der Workflow unseres auf drei Standorte verteilten Projektes besteht grob aus sechs Hauptstationen:

  1. Vorbereitungen der Akten (reastauratorisch, archiviarisch, digital)
  2. Scannen
  3. Anreicherung mit Struktur- und Metadaten
  4. Bereitstellung für Transkribus
  5. Automatische Handschriftenerkennung (HTR)
  6. Onlinepräsentation in der Digitalen BibliothekMecklenburg-Vorpommern

Es hat sich als hilfreich erwiesen, dass wir nicht nur die einzelnen Schritte im Vorfeld festgelegt haben, sondern auch von Beginn an die Verantwortlichen, d.h. Experten für die einzelnen Aufgaben sowie Koordinatoren für die Stations- und Standortübergreifenden Schritte. Dadurch ist allen Beteiligten immer die jeweilige Ansprechpartnerin bekannt und können so offene Fragen leichter beantwortet und eventuell auftretende Probleme effizienter gelöst werden.

Insbesondere bei der Digitalisierung der Spruchakten sind wir von Beginn an nicht chronologisch vorgegangen. Wir haben den Bestand also nicht von vorne bis hinten „durchgescannt“. Stattdessen haben wir zunächst einzelne, repräsentative Bände zwischen 1580 und 1675 ausgewählt und bearbeitet, um zunächst starke HTR-Modelle zu erstellen. Erst anschließend wurden die „Lücken“ gefüllt. Eine fortlaufenden Dokumentation des Projektfortschritts mit seinen einzelnen Bereichen und Etappen ist hier wichtig, damit es nicht unübersichtlich wird. Dafür gibt es viele Möglichkeiten.

Wir führen – mittlerweile sehr bunte – Exceltabellen über den Bearbeitungsstand der verschiedenen Bestände. Sie bilden aber nur Teilprozesse ab und sind zudem nur den Koordinatoren zugänglich, die sie pflegen und die Projektfortschritte in ihrem Bereich überwachen müssen. Eine weitere Möglichkeit stellt der #Goobi-Workflow dar. Hier können neben den Arbeitsschritten, die ohnehin in Goobi stattfinden frei auch weitere Schritte als Aufgaben festgelegt werden, die nicht im Zusammenhang mit Goobi stehen müssen. Sie können wie die übrigen Aufgaben auch angenommen und abgeschlossen werden, und so den Projektfortschritt abbilden. Voraussetzung ist hier aber, dass alle Projektbeteiligten mit diesem Workflowsystem vertraut sein müssen. Wo das nicht so ist, muss ein „externes“ Informationssystem gewählt werden, auf das alle zugreifen können.

Die drei Standorte unseres Projekts führen daher gemeinsam ein Wiki (E-Collaboration).

Posted by Elisabeth Heigl on

Scannen und Strukturdaten

Die Spruchakten scannen wir auf Bookeye4 Buchscannern der Firma Image Access in Kombination mit der Scansoftware UCC (Universal Capturing Client) der Firma Intranda. UCC erlaubt nicht nur die Erfassung von Strukturdaten währendes des Scanprozesses, sondern ist auch direkt mit dem Goobi-Server verbunden, auf dem die digitalen Prozesse unseres Projektes (jenseits der Handschriftenerkennung) gesteuert werden. In Goobi bereits angelegte Vorgänge können also im UCC aufgerufen, mit Digitalisaten und Strukturdaten ‚bestückt‘ und zum Goobi-Server exportiert werden.

Wir scannen einheitlich in 400 dpi und mit 24-bit Farbtiefe. Die erzeugten Originaldateien werden als unkomprimierte TIF-Dateien gespeichert. Zur weiteren Bearbeitung und für die Präsentation in der Digitalen Bibliothek M-V werden sie allerdings in komprimiertes JPG-Format kopiert.

UCC ermöglicht das Erfassen der Strukturdaten während des Scannens. Das bedeutet, dass der Scanoperator bereits beim Scannen für zusammengehörige Seiten der Akte ein Strukturelement setzen kann. Jedes einzelne Responsum (d.h. jeder Fall) erhält das Strukturelement „Vorgang“. In der späteren Bearbeitung der Metadaten müssen diesen dann lediglich beschreibende Haupttitel hinzugefügt werden.

Posted by Dirk Alvermann on

Wissen was man will

Ein Digitalisierungsprojekt mit Handschriftentexterkennung kann ganz unterschiedliche Zielsetzungen haben. Die reichen von der kritischen digitalen Edition über die Bereitstellung von Handschriften als Volltexte bis hin zur Erschließung großer Textkorpora über Key Word Spotting. Alle drei Zielsetzungen ermöglichen unterschiedliche Herangehensweisen, die großen Einfluss auf den technischen und personellen Aufwand haben.

In diesem Projekt interessieren nur die letzten beiden Zieldefinitionen, da eine kritische Edition nicht angestrebt wird, auch wenn die in diesem Projekt generierten Volltexte als Grundlage einer solchen dienen können.

Wir streben eine möglichst vollständige Erschließung des Inhalts der Handschriften durch automatische Texterkennung an. Die Ergebnisse sollen anschließend in der Digitalen Bibliothek Mecklenburg Vorpommern online gestellt werden. Dort steht zunächst eine Suche zur Verfügung, die die Treffer im image selbst anzeigt. Der Nutzer, der über ausreichend paläografische Kenntnisse verfügt, kann den Trefferkontext im image selbst erschließen oder auf eine moderne Volltextansicht umschalten, oder sogar nur diese benutzen.

Posted by Dirk Alvermann on

Warum HTR alles verändert

Seit einigen Jahren widmen sich Archive und Bibliotheken in immer größerem Umfang der Digitalisierung von historischen Handschriften. Die Strategien sind dabei recht unterschiedlich. Die einen möchten ihre „Kostbarkeiten“ zeitgemäß präsentieren, andere möchten umfangreichere Bestände in zweckmäßiger Form für die Benutzung verfügbar machen. Die Vorteile der Digitalisierung liegen auf der Hand. Die Originalquellen werden geschont und die interessierten Forscher und Laien können unabhängig von Ort und Zeit auf das Material zugreifen, ohne Tage oder Wochen in Lesesälen zubringen zu müssen. Das ist ein enormer Fortschritt, gemessen an der Praxis des 20. Jahrhunderts.

Solche digitalen Angebote – die zunächst nicht mehr als ein digitales Abbild der historischen Originalquelle bereitstellen – werden also mit großem Aufwand, sowohl finanziell als auch personell, erarbeitet und unterhalten. Schaut man auf die Zielgruppe dieser Angebote, dann stellt man fest, dass es sich an dieselben Adressaten richtet, die auch Archive und Bibliotheken aufsuchen, vielleicht auch einige mehr, die aber alle über die Fertigkeit verfügen, solche historischen Handschriften überhaupt entziffern zu können. Optimistisch geschätzt, reden wir also von ein bis zwei Prozent der Bevölkerung. Für alle übrigen sind diese Digitalisate lediglich schön anzusehen.

Dieses Bild sollte man sich vor Augen halten, wenn man verstehen möchte, warum HTR in der Geschichte der digitalen Erschließung und Nutzung historischer Handschriften ein völlig neues Kapitel aufschlägt. Mit einem Satz könnte man sagen: HTR gestattet den Schritt von der einfachen Digitalisierung zur digitalen Transformation historischer Quellen. Dank der HTR wird nämlich nicht nur das digitale Abbild einer Handschrift sondern auch ihr Inhalt in einer für jedermann lesbaren und von Maschinen durchsuchbaren Form – und zwar über hunderttausende Seiten hinweg – verfügbar gemacht.

Für die Nutzung historischer Handschriften bedeutet das nicht weniger, als das ihr Inhalt einen Interessentenkreis geöffnet werden kann, dem er bislang verschlossen blieb oder wenigstens nicht ohne weiteres erschließbar war. Damit ist nicht nur der Kreis der Laienforscher angesprochen. Auch für wissenschaftliche Fachvertreter aus Disziplinen, in denen eine historische Hilfswissenschaften nicht zum klassischen Ausbildungskanon gehören, wird die Zugänglichkeit zu den Inhalten der Quellen erleichtert. Neue Konstellationen interdisziplinären Forschens werden so ermöglicht. Und schließlich: da die Inhalte der Handschriften nun maschinell auswertbar sind, lassen sich Fragestellungen und Methoden der Digital Humanities weitaus leichter an das Material herantragen als zuvor.

Tipps & Tools
Lesetipp: Mühlberger, Archiv 4.0 oder warum die automatisierte Texterkennung alles verändern wird Tagungsband Archivtag Wolfsburg, in: Massenakten – Massendaten. Rationalisierung und Automatisierung im Archiv (Tagungsdokumentationen zum Deutschen Archivtag, Band 22), hg. v. VdA, Fulda 2018, S. 145-156.

 

Posted by Anna Brandt on

Was Du hier findest und was nicht

Dieser Blog berichtet hauptsächlich über unsere Arbeit mit Transkribus. Daneben stellen wir aber auch den Projektworkflow und unsere Erfahrung mit den Scanprozessen, den dabei angewendeten Parametern, der Erstellung von Struktur- und Metadaten und die Präsentation der Projektergebnisse im Viewer der Digitalen Bibliothek Mecklenburg-Vorpommern vor.

Dieser Blog ist kein Handbuch. Erwarte also nicht, dass hier step-by-step-Anleitungen für einzelne Aufgaben, die man in Transkribus erledigen kann, gegeben werden (obwohl wir das manchmal auch tun). Dafür gibt es eine ganze Reihe guter und bewährter How-To’s, die das Transkribus-Team und user in den letzten Jahren erarbeitet haben. Nein – hier wird über praktische Erfahrungen berichtet und  ein paar Tipps & Tricks verraten.

Transkribus hat inzwischen zwei Interfaces: den „Expert-Client“, den Du hier  herunterladen kannst, und des Web-User-Interface (WebUI), das Du unter dieser Adresse  erreichst. In diesem Blog geht es fast nur um den Expert-Client, weil nur er den vollen Funktionsumfang bereitstellt, den man benötigt, um anspruchsvolle Projekte zu bewältigen. Unter welchen Umständen und warum die Nutzung des WebUI trotzdem sinnvoll und angebracht ist, erklären wir hier.

Unsere Erfahrungen beziehen sich auf ein mittleres large-scale-project. Hier werden ca. 250.000 images verarbeitet. Entsprechend ausgerichtet ist unser Fokus. Wir setzen die Möglichkeiten von Transkribus ein, um große Mengen von Dokumenten durch automatisierte Texterkennung zu erschließen, mit Inhalten anzureichern und online zur Verfügung zu stellen. Dabei soll die Durchsuchbarkeit mittels Volltextsuche oder Keyword Spotting ermöglicht werden. Die Art der eingesetzten Mittel und der Anspruch an die Ergebnisse sind an diesem Ziel ausgerichtet. Projekte mit geringerem Umfang werden vielleicht differenzierte Methoden und subtilere Mittel anwenden; nichtsdestotrotz, auch für sie finden sich hier einige nützliche Erfahrungen.

Tipps & Tools
Lesetipp: Günter Mühlberger, Tamara Terbul: Handschriftenerkennung für historische Schriften. Die Transkribus Plattform