Category Archives

6 Articles

Posted by Anna Brandt on

Kollaboration – Versions Management

Release 1.7.1

Das zweite wichtige Element für organisierte Kollaboration ist das Versionsmanagement von Transkribus. In der toolbar wirkt es eher unscheinbar, ist aber enorm wichtig. Transkribus legt nämlich bei jedem Speichern eine Version der gerade bearbeiteten page ab, die den aktuellen Stand der Layout- und Inhaltsbearbeitung enthält.

Diese Versionen werden – damit man sie besser unterscheiden kann – mit einem „edit status“ versehen. Ein neu hochgeladenes Dokument enthält nur pages mit dem edit status „new“. Sobald ihr eine page bearbeitet, wechselt der edit status automatisch auf „in progress“. Die drei übrigen Statusanzeigen – „done“, „final“ und „Ground Truth“ – können nur manuell gesetzt werden.

Wann man einen solchen „höheren“ Status setzt, hängt von den Absprachen im Team ab. Wir benutzen das Versionsmanagement vor allem bei der Produktion von Trainingsmaterial – Ground Truth. Dabei werden alle Seiten, die eine fertige Layout Analyse haben auf „done“ gesetzt, damit die Transcriber und Editors wissen, dass diese Seite jetzt von ihnen bearbeitet werden kann. Dieser Status wird nicht verändert, bis die Seite mit einer hundertprozentig sicheren Transkription versehen ist. Dann wird sie auf „Ground Truth“ oder „final“ gesetzt. Alle Seiten mit dem Status „GT“ werden später als Trainingsmaterial für HTR-Modelle genutzt, während aus den Seiten mit edit status „final“ die Testsets gebildet werden.

Jeder Kollaborator kann jederzeit alle Versionen einer Seite aufrufen und bearbeiten oder auch löschen. Der edit staus hilft ihm dabei, die jeweils gewünschte Version schneller zu finden. Neben dem edit status wird bei jeder Version der letzte Bearbeiter und der Speicherzeitpunkt angezeigt. Falls die Version mit einem automatischen Prozesse (Layout Analyse oder HTR) bearbeitet wurde, wird das ebenso kommentiert. So sind die Bearbeitungsschritte detailliert nachvollziehbar.

Tipps & Tools
Ihr könnt mehrere Versionen mit demselben Status haben.
Ihr könnt jede Version in einen beliebigen anderen Status versetzen – außer in „New“.
Ihr könnt einzelne oder mehrere Versionen löschen – außer Final-Versionen, die sind unlöschbar.

Posted by Elisabeth Heigl on

Kollaboration – User Management

Release 1.7.1

Die Transkribus-Plattform ist auf Kollaboration angelegt, das heißt, dass viele Nutzer an einer Collection und sogar an einem Document gleichzeitig arbeiten können. Eventuelle Kollisionen sollten bei ein wenig Organisationsgeschick vermeidbar sein.

Die beiden wichtigsten Elemente, die eine organisierte Kollaboration ermöglichen, sind das User Manangement und das Versionsmanagement in Transkribus. Das User Management bezieht sich ausdrücklich auf Collections. Derjenige, der eine Collection anlegt, ist immer ihr „owner“, das heißt, er hat volle Rechte, einschließlich des Rechts, die ganze Collection zu löschen. Er kann anderen Nutzern Zugriff auf die Collection gewähren und ihnen dabei Rollen zuweisen, die gestaffelten Rechten entsprechen:

Owner – Editor – Transcriber

Es macht immer Sinn, wenn mehr als ein Mitglied des Teams „owner“ einer Collection ist. Bei uns sind alle übrigen „editors“. Die Rolle „transcriber“ zu vergeben, ist vor allem dann sinnvoll, wenn man crowd-projects betreibt, wo Freiwillige oder Ehrenamtliche tatsächlich nichts anders tun, als Texte abzuschreiben oder zu taggen. Für solche „transcriber“ ist der Zugriff über das WebUI, mit seinen auf diese Rolle abgestimmten Funktionsumfang ideal geeignet.

Posted by Anna Brandt on

Was man über Collections & Documents wissen sollte

Release 1.7.1

Collections und Documents sind die beiden wichtigsten Kategorien, in denen man Material in Transkribus ordnen und verwalten kann. Eine Collection ist dabei nichts anders als eine Art Verzeichnis, in dem man zueinander gehörende Dokumente ablegt. Dabei ist wichtig zu wissen, dass einige Tools, die Transkribus bereitstellt nicht über die Grenzen eine Collection hinaus arbeiten. Dazu gehört die Tag-Suche, die für alle diejenigen, die ihre HTR-Ergebnisse mit Tags versehen möchten ein wichtiges Hilfsmittel darstellt.

Documents sind Teile der Collection, z.B. ein Konvolut Briefe oder eine Akte oder auch ein Einzelschriftstück. In unserem Projekt ist ein Document immer eine Akte. Documents können also viele Pages enthalten. Sie werden via Upload (über ftp oder direkt vom Rechner) in Transkribus geladen, wobei niemals ein einzelnes image, sondern immer ein Ordner mit images hochgeladen wird.

Einmal hochgeladen, ist die Möglichkeit, die einzelnen Seiten eines Documents zu bearbeiten, beschränkt. Über den Documentmanager besteht die Möglichkeit einzelne Seiten innerhalb des Documents zu verschieben oder zu löschen, es können sogar weitere Seiten hinzugefügt werden. Auch können images, wenn sie erst einmal hochgeladen sind, nicht mehr bearbeitet oder gedreht werden. Das bedeutet: vor dem Upload sollte geprüft werden, ob die images richtig ausgerichtet sind und ob das Document vollständig ist.

Aus diesem Grund werden in diesem Projekt Documents erst zusammengestellt und hochgeladen, wenn sie im Goobi Metadateneditor bearbeitet und dort auf Vollständigkeit geprüft sind und Struktur- und Metadaten erhalten haben. So ist gesichert, dass beim späteren Reimport der HTR-Ergebnisse dieselben tatsächlich auf eine identische Dokumentenstruktur übertragen werden.

Tipps & Tools
Documents können jederzeit zwischen verschiedenen Collections verteilt werden. Das geschieht über Verlinken (dann wird jede Änderung am Document, egal von wo aus sie erfolgt in alle Collections auf die es verlinkt ist übertragen) oder durch Duplizierung (wodurch tatsächlich zwei singuläre Documents entstehen, die auch unabhängig voneinander bearbeitet werden können).

Posted by Anna Brandt on

Material

Release 1.7.1

Erfolgreiche Handschriftentexterkennung ist von vier Faktoren abhängig:

– Eignung der Vorlagen
– Qualität der Digitalisate
– zuverlässige Layoutanalyse und Segementierung von Bildbereichen, die den zu erkennenden Text
  enthalten
– Leistungsfähigkeit der HTR-Modelle, die das „Lesen“ der Handschrift übernehmen

Über alle diese Punkte wird unser Blogg regelmäßig Erfahrungsberichte liefern. Vornweg hier ein paar Hinweise allgemeiner Art.

Grundsätzlich kann man alle handschriftlichen Vorlagen mit den in Transkribus bereitstehenden Werkzeugen bearbeiten. Dabei ist weder das verwendete Zeichensystem (lateinisch, griechisch, hebräisch, russisch, serbisch etc.) noch die Sprache ein Kriterium – die „Modelle“ können so gut wie alles „lernen“.

Eine große Auswirkung auf das Ergebnis hat aber die Qualität der Vorlagen. Mit anderen Worten – stark verschmutzte, völlig verblasste oder geschwärzte Vorlagen haben geringere Erfolgsprognosen bei der automatischen Texterkennung als saubere, kräftige Schriften.

Völlig konfuse Layouts, also Schriftspiegelgestaltungen mit horizontal und vertikal oder auch schräg verlaufenden Zeilen, zahlreichen Marginalien oder Einfügungen und Text zwischen den Zeilen, bereiten der automatischen Layoutanalyse mehr Probleme als kanzleimäßige Ausfertigungen. Und mehr Probleme heißt mehr Aufwand für die Bearbeiter.

Bei der Auswahl des Materials sollte man sich also darüber Gedanken machen, vor welche Herausforderungen es die verfügbaren Werkzeuge und die einzelnen Arbeitsbereiche stellt. Das geht nur mit ein wenig Erfahrung.

In unserem Projekt werden unterschiedlich anspruchsvolle mehrsprachige Vorlagen aus dem 16. bis 20. Jahrhundert bearbeitet. Wir teilen die dabei gesammelten Erfahrungen gern.

 

 

 

Posted by Dirk Alvermann on

WebUI & Expert Client

Wie schon gesagt, bezieht sicher dieser Blog fast ausschließlich auf den Expert Client von Transkribus. Er bietet eine Vielzahl von Möglichkeiten, deren Beherrschung ein gewisses Maß an Kenntnissen voraussetzen.

Das WebUI ist wesentlich beschränkter im Funktionsumfang, aber eben auch übersichtlicher. Im WebUI ist es nicht möglich, eine automatische Layout Analyse durchzuführen oder eine HTR zu starten, geschweige denn ein Modell zu trainieren oder in das User Management einzugreifen. Dafür ist es aber auch nicht gedacht.

Das WebUI ist das ideale Interface für crowd projects mit vielen Freiwilligen, die v.a. Transkriptionen anfertigen oder Inhalte kommentieren und taggen. Und genau dafür wird es auch am häufigsten eingesetzt. Die Koordination eines solchen crowd projects wird also immer über den Expert Client ausgeführt werden müssen.

Die Vorteile des WebUI liegen darin, dass es voraussetzungslos zu benutzen ist (wie der Name schon sagt eine Web-Applikation, die über den Browser aufgerufen wird, keine Installation, keine Updates etc.). Außerdem ist es so gut wie selbsterklärend und kann ohne jegliche Vorkenntnisse von fast jedermann benutzt werden.

 

Tipps & Tools
Auch das WebUI hat ein Versions management – etwas angepasst für crowd projects. Wenn ein Transcriber mit der zu bearbeitenden Seite fertig ist, setzt er den Edit Status auf „ready for review“, so dass sein Supervisor weiß, dass er nun gefragt ist.

Posted by Dirk Alvermann on

Wissen was man will

Ein Digitalisierungsprojekt mit Handschriftentexterkennung kann ganz unterschiedliche Zielsetzungen haben. Die reichen von der kritischen digitalen Edition über die Bereitstellung von Handschriften als Volltexte bis hin zur Erschließung großer Textkorpora über Key Word Spotting. Alle drei Zielsetzungen ermöglichen unterschiedliche Herangehensweisen, die großen Einfluss auf den technischen und personellen Aufwand haben.

In diesem Projekt interessieren nur die letzten beiden Zieldefinitionen, da eine kritische Edition nicht angestrebt wird, auch wenn die in diesem Projekt generierten Volltexte als Grundlage einer solchen dienen können.

Wir streben eine möglichst vollständige Erschließung des Inhalts der Handschriften durch automatische Texterkennung an. Die Ergebnisse sollen anschließend in der Digitalen Bibliothek Mecklenburg Vorpommern online gestellt werden. Dort steht zunächst eine Suche zur Verfügung, die die Treffer im image selbst anzeigt. Der Nutzer, der über ausreichend paläografische Kenntnisse verfügt, kann den Trefferkontext im image selbst erschließen oder auf eine moderne Volltextansicht umschalten, oder sogar nur diese benutzen.