{"id":1103,"date":"2020-02-18T08:00:03","date_gmt":"2020-02-18T07:00:03","guid":{"rendered":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1103"},"modified":"2019-12-17T08:31:27","modified_gmt":"2019-12-17T07:31:27","slug":"p2pala-line-detection-and-htr","status":"publish","type":"post","link":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/p2pala-line-detection-and-htr\/","title":{"rendered":"P2PaLA \u2013 line detection und HTR"},"content":{"rendered":"<p><span style=\"color: #0071a1;\"><em>Release 1.9.1<\/em><\/span><\/p>\n<p>Wie bereits in unserem <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1096&amp;preview=true\">vorherigen Post<\/a> erw\u00e4hnt, ist uns im Laufe unseres Projekts aufgefallen, dass die CITLabAdvanced-LA das Layout in unserem Material nicht optimal erkennt. Das geschieht nicht nur auf den optisch &#8217;schlimmen&#8216; Seiten mit mixed Layouts, sondern auch bei einfachen Layouts; auf Seiten, die nur ein Textfeld ben\u00f6tigen, keine Notizen am Rand, gro\u00dfartige Streichungen im Text oder \u00e4hnliches aufweisen. Hier erkennt die automatische LA die TRs richtig, die Baselines sind jedoch meistens fehlerhaft.<\/p>\n<p>Das ist nicht nur f\u00fcr die sp\u00e4tere Anzeige des Volltextes schlecht, die dadurch zum Teil verwirrend oder f\u00fcr den Leser unverst\u00e4ndlich wird. Eine unzureichende LA beeinflusst auch das Ergebnis der HTR. Egal wie gut euer HTR-Modell auch ist: wenn die LA nicht eine ad\u00e4quate Qualit\u00e4t bietet, ist das ein Problem.<\/p>\n<p>Da die HTR nicht die einzelnen Zeichen liest, sondern zeilenbasiert arbeitet und Muster erkennen soll, kommen bei Zeilen, deren Anfang oder Ende von der line detection nicht richtig erkannt wurden (in denen also Buchstaben oder W\u00f6rter nicht von der LA erkannt wurden) oft falsche Ergebnisse heraus. Das hat zum Teil dramatische Auswirkungen auf die Accuracy Rate einer Seite oder eines ganzen Dokuments, wie unser Beispiel zeigt.<\/p>\n<p><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/12\/P2PaLA_BL.jpg\" target=\"_blank\" rel=\"noopener noreferrer\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-1104\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/12\/P2PaLA_BL-300x225.jpg\" alt=\"\" width=\"600\" height=\"450\" srcset=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/12\/P2PaLA_BL-300x225.jpg 300w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/12\/P2PaLA_BL-768x576.jpg 768w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/12\/P2PaLA_BL-880x660.jpg 880w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/a><br \/>\n1587, page 41<\/p>\n<p>Aus diesem Grund haben wir ein P2PaLA-Modell trainiert, welches auch BL erkennt. Das war sehr hilfreich. Es lassen sich f\u00fcr diese Modelle keine automatischen Statistiken wie f\u00fcr die CER errechnen, aber von der Ansicht her scheint es auf &#8218;reinen&#8216; Seiten fast fehlerfrei zu arbeiten. Au\u00dferdem ist der Schritt des <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1108&amp;preview=true\">Postprocessings<\/a> in vielen F\u00e4llen nicht mehr n\u00f6tig.<\/p>\n<p>Das Trainigsmaterial wird \u00e4hnlich erstellt wie bei <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1114&amp;preview=true\">Modellen die nur TRs erkennen<\/a> sollen. Man kann auch das dort verwendet Material quasi erweitern und erneut nutzen. Die einzelnen Baselines m\u00fcssen f\u00fcr die Strukturanalyse nicht manuell getaggt werden, auch wenn das Modell es sp\u00e4ter tut, um sie den getaggten TRs zuzuordnen. Wir haben mit Unterst\u00fctzung des Transkribus Teams und einem Trainingsmaterial von <strong>2500<\/strong> Seiten ein Strukturmodell trainieren k\u00f6nnen, das wir heute anstelle der Standard LA einsetzen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Release 1.9.1 Wie bereits in unserem vorherigen Post erw\u00e4hnt, ist uns im Laufe unseres Projekts aufgefallen, dass die CITLabAdvanced-LA das Layout in unserem Material nicht optimal erkennt. Das geschieht nicht nur auf den optisch &#8217;schlimmen&#8216; Seiten mit mixed Layouts, sondern auch bei einfachen Layouts; auf Seiten, die nur ein Textfeld ben\u00f6tigen, keine Notizen am Rand, [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,9],"tags":[],"class_list":["post-1103","post","type-post","status-publish","format-standard","hentry","category-transkribus-in-practice","category-layout-analysis"],"translation":{"provider":"WPGlobus","version":"3.0.2","language":"de","enabled_languages":["gb","de"],"languages":{"gb":{"title":true,"content":true,"excerpt":false},"de":{"title":true,"content":true,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/1103","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/comments?post=1103"}],"version-history":[{"count":11,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/1103\/revisions"}],"predecessor-version":[{"id":1106,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/1103\/revisions\/1106"}],"wp:attachment":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/media?parent=1103"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/categories?post=1103"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/tags?post=1103"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}