3 Articles

Posted by Anna Brandt on

Textregionen

Release 1.7.1

Im Normalfall wird die automatische CITlab Advanced Layout Analysis in ihrer Standardeinstellung auf einem image nur eine einzige Textregion mit den dazugehörigen Baselines erkennen.

Es gibt aber auch einfache Layouts, bei denen sich der Einsatz mehrere TRs empfiehlt, bspw. wenn Marginalien, Rand- oder Fußnotizen und ähnliche wiederkehrende Elemente vorhanden sind. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen TR enthalten sind, zählt die Layoutanalyse die Zeilen schlicht der Reihenfolge nach von oben nach unten.

 

Diese „Reading Order“ nimmt keine Rücksicht darauf, wo ein Text inhaltlich eigentlich hingehört (bspw. eine Einfügung), sondern nur darauf wo er grafisch auf der Seite verortet ist. Eine automatisch erzeugte, aber unbefriedigende Reading Order zu korrigieren ist langweilig und manchmal aufwendig. Man kann das Problem oft vermeiden, indem man mehrere Textregions anlegt in denen die zusammengehörigen Texte und Zeilen wie in einer Box gut aufgehoben sind.

Dazu werden an den entsprechenden Stellen TRs manuell angelegt. Anschließend führt man die Line Detection mit CITlab Advanced durch um die Baselines automatisch hinzuzufügen.

 

Tipps & Tools
Wenn ihr die TRs manuell gezogen habt und nun von der CITlab Advanced LA die Baselines gezogen haben wollt, solltet ihr zuerst den Haken bei „Find Textregions“ herausnehmen, sonst werden die manuell gezogenen TRs gleich wieder überschrieben. Außerdem sollte man dafür sorgen, dass keine der einzelnen Textregionen aktiv ist, sonst wird nur diese bearbeitet.

Posted by Elisabeth Heigl on

Transkriptionsrichtlinien

In den Abschriften für den Ground Truth wird die litterale oder diplomatische Transkription angestrebt. Das bedeutet, dass wir bei der Transkription möglichst keine Regulierungen hinsichtlich der Zeichen vornehmen. Die Maschine muss anhand einer möglichst zeichengetreuen Abschrift lernen, um selbst später genau wiedergeben zu können, was auf dem Blatt zu lesen ist. So übernehmen wir beispielsweise konsequent die vokalische und konsonantische Verwendung von „u“ und „v“ der Vorlage. An das Vrtheill vndt die Vniusersitet kann man sich erstaunlich rasch gewöhnen.

Nur in den folgenden Ausnahmen sind wir von der litteralen Transkription abgewichen und haben Zeichen reguliert. Auf die Behandlung von Abbreviaturen gehen wir noch einmal gesondert ein.

Das ſogennante Lang-s und das Schluß-s oder auch runde S können wir nicht litteral übernehmen, weil wir weitgehend auf das Antiqua-Zeichensystem angewiesen sind. Daher übertragen wir beide Formen als „s“.

Umlaute geben wir so wieder, wie sie erscheinen. Diakritische Zeichen werden übernommen, es sei denn das moderne Zeichensystem erlaubt dies nicht; wie im Fall des „a“ mit ‚diakritischem e‘, das zum „ä“ wird. Diphthonge werden ebenfalls übernommen, das „æ″ allerdings als ae″.

Das Ypsilon wird in vielen Handschriften als „ÿ″ geschrieben. Wir transkribieren es aber in der Regel als einfaches y″. Nur wenn es paläografisch begründet ist, differenzieren wir zwischen „y“ und dem ähnlich verwendeten „ij“.

Auch hinsichtlich der Satz- und Sonderzeichen gibt es einige Ausnahmen von der litteralen Transkription: In den Handschriften werden Klammern auf ganz unterschiedliche Weisen dargestellt. Wir verwenden hier aber einheitlich die modernen Klammerzeichen (…). Auch die Worttrennungszeichen am Zeilenende weisen eine hohe Varianz auf, weshalb wir sie ausschließlich mit einem „¬“ wiedergeben. Das im modernen Gebrauch übliche Kupplungszeichen – der Bindestrich – kommt in den Handschriften kaum vor. Stattdessen finden wir bei Kupplung zweier Wörter häufig das „=“, das wir mit einem einfachen Bindestrich wiedergeben.

Die Komma- und Punktsetzung übernehmen wir so wie sie erscheint – sofern überhaupt vorhanden. Endet der Satz nicht mit einem Punkt setzen wir auch keinen.

Groß- und Kleinschreibung wird unverändert nach der Vorlage übernommen. Häufig kann aber nicht eindeutig unterschieden werden ob es sich um einen Groß- oder Kleinbuchstaben handelt. Das betrifft weitgehend schreiberunabhängig insbesondere das D/d, das V/v und auch das Z/z. Im Zweifelsfall gleichen wir dann den fraglichen Buchstaben mit seiner sonstigen Verwendung im Text ab. In Komposita können Großbuchstaben innerhalb eines Wortes vorkommen – auch sie werden getreu nach der Vorlage transkribiert.

Posted by Elisabeth Heigl on

Wie wir die Spruchakten scannen

Die Seitenoberflächen der Spruchakten sind in der Regel uneben. Deshalb verwenden wir beim Scannen immer eine Glasplatte. Damit können zumindest grobe Knicke und Falten geglättet und so auch ein wenig die Schrift begradigt werden.

Im Gegensatz zum üblichen Scanverfahren bei Büchern scannen wir jede Seite einer Akte einzeln. Dabei haben wir die uns zur Verfügung stehenden Möglichkeiten der nachträglichen Layoutbearbeitung von Scans bewusst ausgeschlossen. Frühere Digitalisierungsprojekte haben gezeigt, dass diese umständlich und fehleranfällig sein können und den Workflow schnell durcheinanderbringen. Weil aber eine nachträgliche Layoutbearbeitung der Bilder ausgeschlossen wurde, müssen die Scans von Beginn an präsentabel produziert werden.

Deshalb nutzen wir beim Scannen den sogenannten „Crop-Modus“ (UCC-Projekteinstellungen). Damit wird der Blattrand der Vorlage automatisch erfasst und als Rahmen des gescannten Bildes (Image) gesetzt. So entsteht ein Image, das kaum schwarzen Rand aufweist. Eine mögliche ‚Schieflage‘ des Blattes kann dabei bis zu 40° ausgeglichen werden. Das führt zu verlässlich ausgerichteten Images und erleichtert auch die Handhabung beim Seitenwechsel während des Scannens.

Damit der Crop-Modus die zu scannende Seite als solche erkennt, darf auch nur diese zu sehen sein. Das bedeutet, dass alles andere, sowohl die jeweils gegenüberliegende Seite als auch die Blätter darunter, schwarz abgedeckt werden müssen. Dazu verwenden wir zwei handelsübliche schwarze Fotokartonblätter (A3 oder A2).

Bei den Spruchakten finden sich häufig Blätter, bei denen die Verschlusssiegel durch Ausschneiden entfernt wurden. Diese Seiten müssen jeweils zusätzlich mit einem Blatt unterlegt werden (farblich möglichst nah an der Vorlage), dass der Crop-Modus den Rand komplettiert, damit beim Scan nicht Bestandteile des Blattes abgeschnitten werden.

Wir können beim Scannen der Spruchakten also nicht einfach „durchblättern“ und Scans auslösen, sondern jedes einzelne Image muss im Prinzip vorbereitet werden. So ersparen wir uns aber auch eine eventuelle aufwendige Nachbearbeitung der Images. Die durchschnittliche Scangeschwindigkeit bei diesem Verfahren beträgt rund 100 Seiten pro Stunde.