Viel hilft viel – wie komme ich an immer mehr GT?
Release 1.7.1
Damit das Modell die Vorlagen möglichst genau wiedergeben kann, braucht es zum Lernen möglichst viel Ground Truth; viel hilft viel. Aber wie kommt man an möglichst viel GT?
Es ist ganz schön zeitaufwändig viel GT zu produzieren. Als wir am Anfang unseres Projektes und des Modelltrainings standen, haben wir in einer Stunde gerade einmal 1 bis 2 Seiten geschafft. Das sind durchschnittlich 150 bis 350 Wörter pro Stunde.
Fünf Monate später hatten wir aber schon knapp 250.000 Wörter im Training. Wir hatten weder eine Heerschar von Transcribern noch musste einer Tag und Nacht GT schreiben. Alleine die exponentielle Verbesserung der Modelle selbst ermöglichte es uns immer mehr GT zu produzieren:
Je mehr GT du investierst, desto besser wird dein Modell. Je besser dein Modell liest, desto leichter wird das Schreiben von GT. Du musst jetzt nämlich nicht mehr selbst schreiben, sondern lediglich die HTR korrigieren. Mit Modellen die eine durchschnittliche Fehlerquote unter 8 % aufweisen, haben wir ca. 6 Seiten pro Stunde geschafft.
Je besser das Modell liest, desto mehr GT kann produziert werden und je mehr GT vorhanden ist, desto besser wird das Modell. Was ist das Gegenteil von einem Teufelskreis?