{"id":843,"date":"2019-10-28T08:00:58","date_gmt":"2019-10-28T07:00:58","guid":{"rendered":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=843"},"modified":"2020-05-05T09:31:08","modified_gmt":"2020-05-05T07:31:08","slug":"word-error-rate-character-error-rate-how-to-evaluate-a-model","status":"publish","type":"post","link":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/word-error-rate-character-error-rate-how-to-evaluate-a-model\/","title":{"rendered":"Word Error Rate &#038; Character Error Rate \u2013 woran sich ein Modell messen l\u00e4sst"},"content":{"rendered":"<p><span style=\"color: #0071a1;\"><em>Release 1.7.1<\/em><\/span><\/p>\r\n<p>Die Word Error Rate (WER) und Character Error Rate (CER) zeigen an, wie hoch der Textanteil einer Handschrift ist, den das angewendete HTR-Modell nicht korrket gelesen hat. Eine CER von 10% bedeutet also, dass jedes zehnte Zeichen (und das sind <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1394&amp;preview=true\">nicht nur Buchstaben<\/a>, sondern auch Interpunktionen, Leerzeichen etc.) nicht richtig erkannt wurde. Die Accuracy Rate l\u00e4ge demnach bei 90 %. Von einem guten HTR-Modell kann man sprechen, wenn 95% einer Handschrift korrekt erkannt wurde, die CER also nicht \u00fcber 5% liegt. Das ist in etwa auch der Wert, den man heute mit \u201eschmutziger\u201c OCR bei Frakturschriften erziehlt. Im \u00dcbrigen entspricht eine Accuracy Rate von 95% auch den Erwartungen, die in den <a href=\"https:\/\/www.dfg.de\/formulare\/12_151\/12_151_de.pdf\">DFG-Praxisregeln Digitalisierung<\/a> formuliert sind.<\/p>\r\n<p>Selbst bei einer guten CER kann die Word Error Rate hoch sein. Die WER zeigt, wie gut die wortgenaue Wiedergabe des Textes ist. In Aller Regel liegt die WER um das drei bis vierfache h\u00f6her als die CER und verh\u00e4lt sich proportional zu ihr. Der Wert der WER ist nicht besonders aussagekr\u00e4ftig f\u00fcr die Qualit\u00e4t des Modells, denn anders als Zeichen, sind W\u00f6rter unterschiedlich lang und gestatten keine gleicherma\u00dfen eindeutigen Vergleich (ein Wort ist schon falsch erkannt, wenn ein Buchstabe darin falsch ist). Darum wird sie auch seltener benutzt, um den Wert eines Modells zu charakterisieren.<\/p>\r\n<p><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-\u00dcbersicht.jpg\" target=\"_blank\" rel=\"noopener noreferrer\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-891\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-\u00dcbersicht-300x214.jpg\" alt=\"\" width=\"600\" height=\"428\" srcset=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-\u00dcbersicht-300x214.jpg 300w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-\u00dcbersicht-768x548.jpg 768w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\r\n<p>Die WER gibt aber Hinweise auf einen wichtigen Aspekt. Denn wenn ich eine Texterkennung mit dem Ziel durchf\u00fchre, sp\u00e4ter eine Volltextsuche in meinem Dokuemnt durchzuf\u00fchren, dann zeigt mir die WER genau die Erfolgsquote, mit der ich bei meiner Suche rechnen kann. Gesucht wird ja nach Worten oder Wortteilen. Egal also wie gut meine CER ist: bei einer WER von 10% kann potentiell jeder zehnte Suchbegriff nicht gefunden werden.<\/p>\r\n<p>&nbsp;<\/p>\r\n\r\n<p class=\"has-background\" style=\"background-color: #f4e3a5;\">Tipps &amp; Tools<br \/>Am einfachsten l\u00e4sst sich die CER und WER mithilfe der <a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/?p=1372&amp;preview=true\">Compare Funktion<\/a> unter Tools anzeigen. Hier k\u00f6nnt ihr bei einer oder mehreren Seiten eine Ground Truth Version mit einem HTR-Text vergleichen und so die Qualit\u00e4t des Modells einsch\u00e4tzen.<\/p>\r\n\r\n\r\n\r\n<figure class=\"wp-block-image is-resized\"><a href=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-Erkl\u00e4rbild.jpg\" target=\"_blank\" rel=\"noreferrer noopener\"><img decoding=\"async\" class=\"wp-image-892\" src=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-Erkl\u00e4rbild.jpg\" alt=\"\" height=\"600\" srcset=\"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-Erkl\u00e4rbild-300x256.jpg 300w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-Erkl\u00e4rbild-768x655.jpg 768w, https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/wp-content\/uploads\/2019\/09\/WER_CER-Erkl\u00e4rbild-774x660.jpg 774w\" sizes=\"(max-width: 930px) 100vw, 930px\" \/><\/a><\/figure>\r\n","protected":false},"excerpt":{"rendered":"<p>Release 1.7.1 Die Word Error Rate (WER) und Character Error Rate (CER) zeigen an, wie hoch der Textanteil einer Handschrift ist, den das angewendete HTR-Modell nicht korrket gelesen hat. Eine CER von 10% bedeutet also, dass jedes zehnte Zeichen (und das sind nicht nur Buchstaben, sondern auch Interpunktionen, Leerzeichen etc.) nicht richtig erkannt wurde. Die [&hellip;]<\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,10],"tags":[],"class_list":["post-843","post","type-post","status-publish","format-standard","hentry","category-transkribus-in-practice","category-wege-zum-htr-modell"],"translation":{"provider":"WPGlobus","version":"3.0.2","language":"de","enabled_languages":["gb","de"],"languages":{"gb":{"title":true,"content":true,"excerpt":false},"de":{"title":true,"content":true,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/843","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/comments?post=843"}],"version-history":[{"count":14,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/843\/revisions"}],"predecessor-version":[{"id":1445,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/posts\/843\/revisions\/1445"}],"wp:attachment":[{"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/media?parent=843"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/categories?post=843"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de\/de\/wp-json\/wp\/v2\/tags?post=843"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}