{"id":780,"date":"2019-11-07T08:00:31","date_gmt":"2019-11-07T07:00:31","guid":{"rendered":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=780"},"modified":"2019-09-14T10:12:08","modified_gmt":"2019-09-14T08:12:08","slug":"how-to-create-test-sets-and-why-they-are-important-2","status":"publish","type":"post","link":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/how-to-create-test-sets-and-why-they-are-important-2\/","title":{"rendered":"Warum Testsets wichtig sind und wie man sie anlegt, #2"},"content":{"rendered":"<p><span style=\"color: #0071a1;\"><em>Release 1.7.1<\/em><\/span><\/p>\n<p>Wie geht man nun praktisch vor, um Testsets anzulegen?<\/p>\n<p>Da kann letztlich jeder seinen eigenen Weg finden. In unserem Projekt werden die Seiten f\u00fcr die Testsets bereits w\u00e4hrend der Erstellung des GT ausgew\u00e4hlt. Sie erhalten einen besonderen edit status (Final) und werden sp\u00e4ter in separaten Dokumenten zusammengefasst. So ist gesichert, dass sie nicht aus Versehen ins Training geraten. Immer wenn neuer GT f\u00fcr das k\u00fcnftige Training erstellt wird, wird also auch zugleich das Material f\u00fcr das Testset erweitert. Beide Sets wachsen also \u201eorganisch\u201c und proportional.<\/p>\n<p>F\u00fcr das systematische Training erstellen wir mehrere Documents, die wir als \u201eTestsets\u201c bezeichnen und die jeweils auf eine Spruchakte (einen Jahrgang) bezogen sind. Zum Beispiel erstellen wir f\u00fcr das Document der Spruchakte 1594 also ein \u201eTestset 1594\u201c. Hierein legen wir repr\u00e4sentativ ausgew\u00e4hlte Images, die m\u00f6glichst die Schreibervielfalt abbilden sollen. Im \u201eMutter-Dokument\u201c markieren wir die f\u00fcr das Testset ausgew\u00e4hlten Seiten als \u201eFinal\u201c, um sicher zu gehen, dass sie dort auch weiterhin nicht bearbeitet werden. Wir haben nicht f\u00fcr jedes Jahr ein eigenes Testet erstellt, sondern sind in Abh\u00e4ngigkeit des Materials in F\u00fcnfjahresschritten vorgegangen.<\/p>\n<p><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Corresponding-documents-and-testsets.jpg\" target=\"_blank\" rel=\"noopener noreferrer\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-781\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/Corresponding-documents-and-testsets-300x276.jpg\" alt=\"\" width=\"600\" height=\"553\" \/><\/a><\/p>\n<p>Da ein Modell h\u00e4ufig \u00fcber viele Durchg\u00e4nge trainiert wird, hat dieses Vorgehen auch den Vorteil, dass das Testset immer repr\u00e4sentativ bleibt. Die CERs der unterschiedlichen Versionen eines Modells lassen sich also stets vergleichen und in der Entwicklung beobachten, weil der Test immer auf demselben (oder erweiterten) Set ausgef\u00fchrt wird. So ist es leichter die Fortschritte eines Modells zu beurteilen und die weitere <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/the-more-the-better-how-much-gt-do-i-have-to-put-in\/\">Trainingsstrategie<\/a> sinnvoll anzupassen.<\/p>\n<p>Im \u00dcbrigen wird in Transkribus nach jedem Training das daf\u00fcr verwendete Testset in der betroffenen Kollektion selbst\u00e4ndig gespeichert. Man kann also immer wieder darauf zur\u00fcckgreifen.<\/p>\n<p>Es gibt auch die M\u00f6glichkeit, ein Testset erst kurz vor der Durchf\u00fchrung des Trainigs auszuw\u00e4hlen und einfach aus dem Trainingsmaterial einzelne Seiten der Dokumente dem Testset zuzuordnen. Das mag f\u00fcr den Einzelfall eine schnelle und pragmatische L\u00f6sung sein, ist f\u00fcr den planm\u00e4\u00dfigen Aufbau m\u00e4chtiger Modelle aber nicht geeignet.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Release 1.7.1 Wie geht man nun praktisch vor, um Testsets anzulegen? Da kann letztlich jeder seinen eigenen Weg finden. In unserem Projekt werden die Seiten f\u00fcr die Testsets bereits w\u00e4hrend der Erstellung des GT ausgew\u00e4hlt. Sie erhalten einen besonderen edit status (Final) und werden sp\u00e4ter in separaten Dokumenten zusammengefasst. So ist gesichert, dass sie nicht [&hellip;]<\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,10],"tags":[],"class_list":["post-780","post","type-post","status-publish","format-standard","hentry","category-transkribus-in-practice","category-wege-zum-htr-modell"],"translation":{"provider":"WPGlobus","version":"3.0.2","language":"de","enabled_languages":["gb","de"],"languages":{"gb":{"title":true,"content":true,"excerpt":false},"de":{"title":true,"content":true,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/780","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/comments?post=780"}],"version-history":[{"count":7,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/780\/revisions"}],"predecessor-version":[{"id":967,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/780\/revisions\/967"}],"wp:attachment":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/media?parent=780"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/categories?post=780"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/tags?post=780"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}