{"id":752,"date":"2020-03-10T08:00:44","date_gmt":"2020-03-10T07:00:44","guid":{"rendered":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=752"},"modified":"2020-02-24T10:29:13","modified_gmt":"2020-02-24T09:29:13","slug":"test-samples-the-impartial-alternative","status":"publish","type":"post","link":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/test-samples-the-impartial-alternative\/","title":{"rendered":"Testsamples \u2013 die unparteiische Alternative"},"content":{"rendered":"<p>Wenn eine Projektkonzeption es nicht zul\u00e4sst, den <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/how-to-create-test-sets-and-why-they-are-important-1\/\" target=\"_blank\" rel=\"noopener noreferrer\">Aufbau von Testsets<\/a> strategisch zu planen und zu organisieren, dann gibt es eine einfache Alternative: automatisch erstellte Samples. Sie stellen auch eine gute Erg\u00e4nzung zu den von uns manuell erstellten Testsets dar, denn hier entscheiden nicht wir, sondern die Maschine, welches Material in das Testset kommt und welches nicht. Das l\u00e4uft darauf hinaus, dass Transkribus einzelne Zeilen aus einer Menge von Seiten ausw\u00e4hlt, die ihr nat\u00fcrlich zuvor zur Verf\u00fcgung gestellt habt. Es handelt sich also um eine mehr oder weniger zuf\u00e4llige Auswahl. Das lohnt sich bei Projekten, die \u00fcber sehr viel Material verf\u00fcgen \u2013 also auch bei unserem.<\/p>\n<p>Wir verwenden Samples als Gegenprobe zu unseren planm\u00e4\u00dfig manuell erstellten Testsets und weil Samples den statistischen Verfahren der Stichprobenerhebung vergleichbar sind, die die DFG in ihren <a href=\"https:\/\/www.dfg.de\/formulare\/12_151\/12_151_de.pdf\" target=\"_blank\" rel=\"noopener noreferrer\">Praxisregeln<\/a> auch f\u00fcr die \u00dcberpr\u00fcfung der Qualit\u00e4t der OCR empfiehlt.<\/p>\n<p>Da HTR (anders als OCR) zeilenbasiert arbeitet, wandeln wir die Empfehlung der DFG etwas ab. Ich erkl\u00e4re das am konkreten Beispiel: F\u00fcr unser Modell Spruchakten_M-3K sollte eine \u00dcberpr\u00fcfung der erzielten Lesegenauigkeit vorgenommen werden. F\u00fcr unser Sample wurde zun\u00e4chst eine Stichprobe von 600 Seiten gezogen, verteilt \u00fcber den Gesamtzeitraum, f\u00fcr den das Modell arbeitet (1583-1627) und ausschlie\u00dflich aus untrainiertem Material. Daf\u00fcr wurde jede 20. Seite des Datensets ausgew\u00e4hlt. Bezogen auf das gesamte f\u00fcr diesen Zeitraum zur Verf\u00fcgung stehende Material von 16.500 Seiten repr\u00e4sentiert dieses Subset ca. 3,7%. All das geschieht auf dem eigenen Netzlaufwerk. Nachdem dieses Subset in Transkribus hochgeladen und mit der CITlab Advanced LA verarbeitet wurde (16.747 lines wurden insgesamt erkannt), lie\u00dfen wir Transkribus ein Sample daraus erstellen. Es enth\u00e4lt 900 per Zufallsgenerator ausgew\u00e4hlte Zeilen. Das sind also ca. 5% des Subsets. Dieses Sample wurde nun mit GT versehen und als Testset zur \u00dcberpr\u00fcfung des Modells genutzt.<strong><span style=\"color: #008000;\"><br \/>\n<\/span><\/strong><\/p>\n<p>Und so geht das in der Praxis: Im Men\u00fc \u201eTools\u201c wird die Funktion \u201eSample Compare\u201c aufgerufen. Unser Subset wird in der Collection ausgew\u00e4hlt und mit dem Button \u201eadd to sample\u201c zum Sample Set hinzugef\u00fcgt. Dabei geben wir auch die Anzahl der Zeilen an, die Transkribus aus dem Subset ausw\u00e4hlen soll an. Wir w\u00e4hlen hier mindestens so viele Zeilen, wie Seiten im Subset vorhanden sind, so dass rechnerisch auf jede Seite eine Testzeile kommt. In unserem Fall haben wir uns f\u00fcr den Faktor 1,5 entschieden, um sicher zu gehen. Das Programm w\u00e4hlt die Zeilen nun eigenst\u00e4ndig aus und stellt daraus ein Sample zusammen, das als neues Dokument gespeichert wird. Dieses Dokument enth\u00e4lt keine pages, sondern ausschlie\u00dflich Zeilen. Die m\u00fcssen nun \u2013 wie gewohnt &#8211; transkribiert und so GT erzeugt werden. Anschlie\u00dfend kann jedes beliebige Modell \u00fcber die Compare-Funktion an diesem Testset ausprobiert werden.<\/p>\n<p><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples.jpg\" target=\"_blank\" rel=\"noopener noreferrer\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft wp-image-753\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples-300x169.jpg\" alt=\"\" width=\"600\" height=\"338\" srcset=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples-300x169.jpg 300w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples-768x432.jpg 768w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples-1024x576.jpg 1024w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples-1170x658.jpg 1170w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/4_4-Testsamples.jpg 1280w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wenn eine Projektkonzeption es nicht zul\u00e4sst, den Aufbau von Testsets strategisch zu planen und zu organisieren, dann gibt es eine einfache Alternative: automatisch erstellte Samples. Sie stellen auch eine gute Erg\u00e4nzung zu den von uns manuell erstellten Testsets dar, denn hier entscheiden nicht wir, sondern die Maschine, welches Material in das Testset kommt und welches [&hellip;]<\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,10],"tags":[],"class_list":["post-752","post","type-post","status-publish","format-standard","hentry","category-transkribus-in-practice","category-wege-zum-htr-modell"],"translation":{"provider":"WPGlobus","version":"3.0.2","language":"de","enabled_languages":["gb","de"],"languages":{"gb":{"title":true,"content":true,"excerpt":false},"de":{"title":true,"content":true,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/752","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/comments?post=752"}],"version-history":[{"count":18,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/752\/revisions"}],"predecessor-version":[{"id":1348,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/752\/revisions\/1348"}],"wp:attachment":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/media?parent=752"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/categories?post=752"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/tags?post=752"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}