Posted by Elisabeth Heigl on 14. August 2020

CER? Keine Sorge!

Transkribus in der Praxis/Wege zum HTR-Modell

Release 1.10.1

Die Zeichenfehlerquote (Character Error Rate – CER) setzt für eine gegebene Seite die Gesamtzahl aller Zeichen (n) – dazu gehören auch die Leerzeichen – ins Verhältnis zur geringsten Anzahl der Einschübe (i), Änderungen (s) und Streichungen (d) von Zeichen, die nötig sind, um das GT-Ergebnis zu erhalten. Um es noch mathematischer auszudrücken:

CER = [ (i + s + d) / n ]*100

Das bedeutet, dass auch sämtliche Kleinigkeiten statistisch vollwertige Fehler sind. Jedes fehlende Komma, ein u statt eines v, ein zusätzliches Leerzeichen oder auch ein Groß- statt eines Kleinbuchstaben fließen als „ganzer Fehler“ in die CER mit ein. Dabei stören die Kleinigkeiten weder beim Lesen und Verstehen des Textes, noch hindern sie die Suchmaschine am Finden eines Begriffs.

Schaue deshalb nicht nur auf die Zahlen sondern immer mal wieder auch in den Textvergleich. Dein Modell ist in der Regel besser, als es die CER und erst recht die WER suggerieren.

Zur Veranschaulichung haben wir das mal an einem Beispiel durchgerechnet: