Daily Archives

One Article

Posted by Dirk Alvermann on

P2PaLA oder Strukturtraining

Release 1.9.1

Die Page-to-Page-Layoutanalyse (P2PaLA) ist eine Form der Layoutanalyse für die, ähnlich wie bei der HTR, individuelle Modelle trainiert werden können. Diese Modelle können trainiert werden, sodass sie entweder nur Textregionen erkennen oder Textregionen und Baselines – sie erfüllen also dieselben Funktionen, die auch von der Standard Layoutanalyse (CITlab Advanced) ausgeführt werden. Die P2PaLA ist vor allem geeignet wenn ein Dokument viele Seiten mit mixed Layout aufweist. Die Standard Layoutanalyse erkennt in solchen Fällen meist nur eine TR – und das kann im Text zu Problemen bei der Reading Order führen.

Mit Hilfe eines Strukturtrainings kann die Layoutanalyse lernen, wo in etwa oder auch wie viele TRs sie erkennen soll.

Die CITlab Advanced LA hatte bei unserem Material häufig Probleme Textregionen ausreichend differentziert zu erkennen. Daher haben wir in unserem Projekt früh mit der P2PaLA experimentriert. Zunächst probierten wir Strukturmodelle aus, die ausschließlich Textregionen setzten (Haupttext, Marginalien, Fußnoten etc.). In den so erzeugten TRs konnte dann die gewöhnliche Line detection durchgeführt werden. Aber auch hier waren die Ergebnisse für uns nicht immer zufriedenstellend.

Die BLs waren oft zu kurz (am Zeilenanfang oder Zeilenende) oder vielfach zerrissen – auch bei Seiten mit einfachem Layout. Deshalb haben wir auf Grundlage unseres bereits funktionierenden P2PaLA-Modells ein weiteres, mit zusätzlicher Erkennung der BLs, trainiert. Unser neuestes Modell erkennt mittlerweile alle ‚einfachen‘ Seiten fast fehlerlos. Bei Seiten mit sehr differenzierten Layouts müssen die Ergebnisse immer noch korrigiert werden, allerdings mit deutlich geringerem Aufwand als zuvor.