{"id":874,"date":"2019-10-13T08:00:26","date_gmt":"2019-10-13T06:00:26","guid":{"rendered":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=874"},"modified":"2019-09-14T10:05:33","modified_gmt":"2019-09-14T08:05:33","slug":"the-more-the-better-how-much-gt-do-i-have-to-put-in","status":"publish","type":"post","link":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/the-more-the-better-how-much-gt-do-i-have-to-put-in\/","title":{"rendered":"Viel hilft viel \u2013 wieviel GT muss ich investieren?"},"content":{"rendered":"<p><span style=\"color: #0071a1;\"><em>Release 1.7.1<\/em><\/span><\/p>\n<p>Wie schon gesagt: <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=364&amp;preview=true\">Ground Truth<\/a> ist das A und O bei der Erstellung von HTR-Modellen.<\/p>\n<p>GT ist die korrekte und maschinenlesbare Abschrift der Handschrift mit deren Hilfe die Maschine das \u201eLesen\u201c lernt. Je mehr die Maschine \u201e\u00fcben\u201c kann, desto besser wird sie. Je mehr Ground Truth wir also haben desto geringer werden die Fehlerquoten. Viel hilft also auch viel.<\/p>\n<p>Nat\u00fcrlich h\u00e4ngt die Menge immer vom konkreten Anwendungsfall ab. Wenn wir mit wenigen, gut lesbaren Schriften arbeiten, gen\u00fcgt in der Regel wenig GT, um ein solide arbeitendes Modell zu trainieren. Sind die Schriften aber sehr unterschiedlich, weil wir es mit einer gro\u00dfen Anzahl verschiedener Schreiber zu tun haben, wird der Aufwand h\u00f6her. Das hei\u00dft, in solchen F\u00e4llen m\u00fcssen wir mehr GT bereitstellen um gute HTR-Modelle zu erzeugen.<\/p>\n<p>In den Spruchakten finden\u00a0 wir besonders viele unterschiedliche Schreiber. Darum wurde hier auch sehr viel GT erzeugt um die Modelle zu trainieren. An unseren Spruchaktenmodellen (Spruchakten_M_2-1 bis 2-11) l\u00e4sst sich deutlich ablesen, wie schnell die Fehlerquote tats\u00e4chlich zur\u00fcckgeht, wenn m\u00f6glichst viel GT investiert wird. Ganz grob l\u00e4sst sich sagen, dass bei Verdoppelung der Menge des GT im Training (words in trainset) die Fehlerquote (<a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=843&amp;preview=true\">CER<\/a> Page) des Modells jeweils halbiert wird.<\/p>\n<p>In unseren Beispielen konnten wir beobachten, dass wir die Modelle mit mindestens 50.000 W\u00f6rtern GT trainieren m\u00fcssen, um gute Ergebnisse zu erzielen. Mit 100.000 W\u00f6rtern im Training kann man bereits ausgezeichnete HTR-Modelle erhalten.<\/p>\n<p><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Viel-hilft-viel-1.jpg\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-875\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Viel-hilft-viel-1-300x244.jpg\" alt=\"\" width=\"600\" height=\"488\" srcset=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Viel-hilft-viel-1-300x244.jpg 300w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Viel-hilft-viel-1-768x625.jpg 768w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Viel-hilft-viel-1-811x660.jpg 811w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Release 1.7.1 Wie schon gesagt: Ground Truth ist das A und O bei der Erstellung von HTR-Modellen. GT ist die korrekte und maschinenlesbare Abschrift der Handschrift mit deren Hilfe die Maschine das \u201eLesen\u201c lernt. Je mehr die Maschine \u201e\u00fcben\u201c kann, desto besser wird sie. Je mehr Ground Truth wir also haben desto geringer werden die [&hellip;]<\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,11],"tags":[],"class_list":["post-874","post","type-post","status-publish","format-standard","hentry","category-transkribus-in-practice","category-ground-truth"],"translation":{"provider":"WPGlobus","version":"3.0.2","language":"de","enabled_languages":["gb","de"],"languages":{"gb":{"title":true,"content":true,"excerpt":false},"de":{"title":true,"content":true,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/874","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/comments?post=874"}],"version-history":[{"count":7,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/874\/revisions"}],"predecessor-version":[{"id":968,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/874\/revisions\/968"}],"wp:attachment":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/media?parent=874"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/categories?post=874"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/tags?post=874"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}