Category Archives

3 Articles

Posted by Elisabeth Heigl on

Auflösung

Ein technischer Parameter, der zu Beginn des Scanprozesses einheitlich festgelegt werden muss, ist die Auflösung der Digitalisate, d.h. wie viele Bildpunkte/dots per inch (dpi) das gescannte Bild aufweist.

Die DFG-Praxisregeln zur Digitalisierung empfehlen allgemein 300 dpi (S. 15). Für „Textdokumente mit dem kleinsten signifikanten Zeichen“ von bis zu 1,5 mm kann jedoch eine Auflösung von 400 dpi gewählt werden (S. 22). Tatsächlich können bei den Handschriften – insbesondere den Konzeptschriften – der frühen Neuzeit kleinste Zeichenbestandteile unterschiedliche Lesarten zur Folge haben und sollten also möglichst eindeutig zu erkennen sein. Wir haben uns daher für 400 dpi entschieden.

Neben den Vorteilen für das Entziffern der Schriften muss aber gleichzeitig auch das deutlich größere Speicherformat der 400er (rund 40.000 KB/img.) gegenüber den 300er (rund 30.000 KB/img.) Dateien bedacht und eingeplant werden!

Die gewählte dpi-Zahl hat darüber hinaus auch Auswirkungen auf den Prozess der automatischen Handschriftenerkennung. Unterschiedliche Auflösungen bringen unterschiedliche Ergebnisse der Layout Analyse und der HTR mit sich. Zur Überprüfung dieser These haben wir etwas willkürlich drei Seiten aus einer Spruchakte von 1618 ausgewählt, diese jeweils in 150, 200, 300 und 400 dpi gescannt, sämtliche Seiten in Transkribus bearbeitet und folgende CERs ermittelt:

Seite/dpi 150 200 300 400
2 3,99 3,5 3,63 3,14
5 2,1 2,37 2,45 2,11
9 6,73 6,81 6,52 6,37

Grob gesagt bedeutet eine geringere Auflösung also eine Verschlechterung der CER – wenn auch im Rahmen von unter einem Prozent.

Ehrlich gesagt, hinken solche Vergleiche der HTR-Ergebnisse aber. Schon die Grundlage der HTR – die Layout Analyse – kommt nämlich bei unterschiedlichen Auflösungen zu latent unterschiedlichen Ergebnissen die im Resultat dann die HTR-Ergebnisse (scheinbar gröbere Analysen erzielen schlechtere HTR-Ergebnisse) aber auch die GT-Produktion selbst beeinflusst (z.B. bei abgeschnittenen Wortbestandteilen).

In unserem Beispiel seht ihr dasselbe image in unterschiedlicher Auflösung. Hier verändert sich das Ergebnis der CITlab Advanced LA mit fortschreitend erhöhter Auflösung. Das initiale „V“ der ersten Zeile wird bei höherer Auflösung nicht mehr erkannt, während Zeile 10 bei höherer Auflösung zunehmend „auseinandergerissen wird“. Mit zunehmender Auflösung wird die LA sensibler – das kann Vor- und Nachteile zugleich haben.

Wichtig ist daher in erster Linie eine für das gesamte Projekt einheitliche dpi-Zahl, damit die durchschnittlichen CER-Werte sowie das gesamte statistische Material belastbar bleiben.

Posted by Elisabeth Heigl on

Wie wir die Spruchakten scannen

Die Seitenoberflächen der Spruchakten sind in der Regel uneben. Deshalb verwenden wir beim Scannen immer eine Glasplatte. Damit können zumindest grobe Knicke und Falten geglättet und so auch ein wenig die Schrift begradigt werden.

Im Gegensatz zum üblichen Scanverfahren bei Büchern scannen wir jede Seite einer Akte einzeln. Dabei haben wir die uns zur Verfügung stehenden Möglichkeiten der nachträglichen Layoutbearbeitung von Scans bewusst ausgeschlossen. Frühere Digitalisierungsprojekte haben gezeigt, dass diese umständlich und fehleranfällig sein können und den Workflow schnell durcheinanderbringen. Weil aber eine nachträgliche Layoutbearbeitung der Bilder ausgeschlossen wurde, müssen die Scans von Beginn an präsentabel produziert werden.

Deshalb nutzen wir beim Scannen den sogenannten „Crop-Modus“ (UCC-Projekteinstellungen). Damit wird der Blattrand der Vorlage automatisch erfasst und als Rahmen des gescannten Bildes (Image) gesetzt. So entsteht ein Image, das kaum schwarzen Rand aufweist. Eine mögliche ‚Schieflage‘ des Blattes kann dabei bis zu 40° ausgeglichen werden. Das führt zu verlässlich ausgerichteten Images und erleichtert auch die Handhabung beim Seitenwechsel während des Scannens.

Damit der Crop-Modus die zu scannende Seite als solche erkennt, darf auch nur diese zu sehen sein. Das bedeutet, dass alles andere, sowohl die jeweils gegenüberliegende Seite als auch die Blätter darunter, schwarz abgedeckt werden müssen. Dazu verwenden wir zwei handelsübliche schwarze Fotokartonblätter (A3 oder A2).

Bei den Spruchakten finden sich häufig Blätter, bei denen die Verschlusssiegel durch Ausschneiden entfernt wurden. Diese Seiten müssen jeweils zusätzlich mit einem Blatt unterlegt werden (farblich möglichst nah an der Vorlage), dass der Crop-Modus den Rand komplettiert, damit beim Scan nicht Bestandteile des Blattes abgeschnitten werden.

Wir können beim Scannen der Spruchakten also nicht einfach „durchblättern“ und Scans auslösen, sondern jedes einzelne Image muss im Prinzip vorbereitet werden. So ersparen wir uns aber auch eine eventuelle aufwendige Nachbearbeitung der Images. Die durchschnittliche Scangeschwindigkeit bei diesem Verfahren beträgt rund 100 Seiten pro Stunde.

Posted by Elisabeth Heigl on

Scannen und Strukturdaten

Die Spruchakten scannen wir auf Bookeye4 Buchscannern der Firma Image Access in Kombination mit der Scansoftware UCC (Universal Capturing Client) der Firma Intranda. UCC erlaubt nicht nur die Erfassung von Strukturdaten währendes des Scanprozesses, sondern ist auch direkt mit dem Goobi-Server verbunden, auf dem die digitalen Prozesse unseres Projektes (jenseits der Handschriftenerkennung) gesteuert werden. In Goobi bereits angelegte Vorgänge können also im UCC aufgerufen, mit Digitalisaten und Strukturdaten ‚bestückt‘ und zum Goobi-Server exportiert werden.

Wir scannen einheitlich in 400 dpi und mit 24-bit Farbtiefe. Die erzeugten Originaldateien werden als unkomprimierte TIF-Dateien gespeichert. Zur weiteren Bearbeitung und für die Präsentation in der Digitalen Bibliothek M-V werden sie allerdings in komprimiertes JPG-Format kopiert.

UCC ermöglicht das Erfassen der Strukturdaten während des Scannens. Das bedeutet, dass der Scanoperator bereits beim Scannen für zusammengehörige Seiten der Akte ein Strukturelement setzen kann. Jedes einzelne Responsum (d.h. jeder Fall) erhält das Strukturelement „Vorgang“. In der späteren Bearbeitung der Metadaten müssen diesen dann lediglich beschreibende Haupttitel hinzugefügt werden.