One Article

Posted by Anna Brandt on

Was man über Collections & Documents wissen sollte

Release 1.7.1

Collections und Documents sind die beiden wichtigsten Kategorien, in denen man Material in Transkribus ordnen und verwalten kann. Eine Collection ist dabei nichts anders als eine Art Verzeichnis, in dem man zueinander gehörende Dokumente ablegt. Dabei ist wichtig zu wissen, dass einige Tools, die Transkribus bereitstellt nicht über die Grenzen eine Collection hinaus arbeiten. Dazu gehört die Tag-Suche, die für alle diejenigen, die ihre HTR-Ergebnisse mit Tags versehen möchten ein wichtiges Hilfsmittel darstellt.

Documents sind Teile der Collection, z.B. ein Konvolut Briefe oder eine Akte oder auch ein Einzelschriftstück. In unserem Projekt ist ein Document immer eine Akte. Documents können also viele Pages enthalten. Sie werden via Upload (über ftp oder direkt vom Rechner) in Transkribus geladen, wobei niemals ein einzelnes image, sondern immer ein Ordner mit images hochgeladen wird.

Einmal hochgeladen, ist die Möglichkeit, die einzelnen Seiten eines Documents zu bearbeiten, beschränkt. Über den Documentmanager besteht die Möglichkeit einzelne Seiten innerhalb des Documents zu verschieben oder zu löschen, es können sogar weitere Seiten hinzugefügt werden. Auch können images, wenn sie erst einmal hochgeladen sind, nicht mehr bearbeitet oder gedreht werden. Das bedeutet: vor dem Upload sollte geprüft werden, ob die images richtig ausgerichtet sind und ob das Document vollständig ist.

Aus diesem Grund werden in diesem Projekt Documents erst zusammengestellt und hochgeladen, wenn sie im Goobi Metadateneditor bearbeitet und dort auf Vollständigkeit geprüft sind und Struktur- und Metadaten erhalten haben. So ist gesichert, dass beim späteren Reimport der HTR-Ergebnisse dieselben tatsächlich auf eine identische Dokumentenstruktur übertragen werden.

Tipps & Tools
Documents können jederzeit zwischen verschiedenen Collections verteilt werden. Das geschieht über Verlinken (dann wird jede Änderung am Document, egal von wo aus sie erfolgt in alle Collections auf die es verlinkt ist übertragen) oder durch Duplizierung (wodurch tatsächlich zwei singuläre Documents entstehen, die auch unabhängig voneinander bearbeitet werden können).