SlangGuy's Blog ...

Jetzt reden wir doch mal Fraktur…

Haben Sie hin & wieder mit in Fraktur gesetzten Texten zu tun? Wollen Sie aus einem solchen zitieren oder das Teil einfach durchsuchbar machen? Vielleicht wollen Sie so eine alte Schwarte in Ihrem feschen E‑Reader lesbar in den Urlaub mitnehmen. Ich zeige Ihnen rasch, wie das geht, ohne dass Sie die happigen Preise für die Fraktur-Optionen der großen OCR-Programme berappen müssen. In maximal zehn Minunten – nach Überfliegen des Artikels – können Sie loslegen.

Hinweis: Dieser Artikel ist veraltet! Sehen Sie meine jüngsten Erkenntnisse zum Thema hier.

… nach all den Mails mit Fragen habe ich mich noch mal mit der Materie befasst & so einige interessante Sachen gefunden, die ich in absehbarer Zeit hier im Blog vorstellen möchte. Es hat sich da Einiges getan! Aber ich würde gern wieder eine Komplettlösung mit ausführlicher Anleitung & einschlägigen Links bieten. Das ist eine Menge Arbeit. Am besten kommen Sie demnächst wieder mal vorbei, dann finden Sie hier den Link zum neuen Artikel. Es lohnt sich, glauben Sie mir: Die Ergebnisse bei der OCR-Erkennung sind damit weit besser als alles hier Vorgestellte. Ich bin noch am Probieren. Und es soll ja wieder eine Lösung mit Windows-Oberfläche werden, da nicht jeder mit Kommandozeilen umgehen kann bzw. möchte. Ich habe unter Windows auch lieber alles mit einer übersichtlichen Benutzeroberfläche … Linux- bzw. insbesondere Ubuntu-User sollten noch mal googeln & können dann relativ schnell loslegen. Also noch ein bisschen Geduld. Ich bin begeistert von den ersten Experimenten … 16.2.2022

Alte Texte in Fraktur sind heute überall im Web als Scans zu bekommen, sei es bei Google oder im Internet Archive oder bei der einen oder anderen Staatsbibliothek. Das Problem ist nur, dass man diese Scans oder PDFs nicht mehr durchsuchen kann, hat man sie erst mal auf der eigenen Festplatte. Zwar gibt es Fraktur-Zusätze für die besseren OCR-Programme, aber die sind sakrisch teuer & ehrlich gesagt – wenn überhaupt – nicht viel besser als das kostenlose Teil, das ich Ihnen hier zeigen möchte. Ich benutze es seit einigen Jahren, und da ich’s eben neu installieren musste, möchte ich das gleich mal zum Nachmachen für alle notieren.

Vorab: Vergessen Sie bei Fraktur fehlerfrei; aber je nach Qualität des Scans ist das OCR-Resultat durchaus brauchbar. Wobei zu unterscheiden ist zwischen der Qualität der Vorlage (Gilb, Fliegenschiss etc.) und dem Scan selbst – wenn der auf hauchdünn heruntergerechnet ist, dann ist das sinnlos.¹ (Die von Tesseract angebotene pdf-Option vergessen Sie erst mal besser. Zerlegen Sie pdf-Dokumente per Acrobat o.ä. in jpgs, tifs o.ä.)

Sie wissen vermutlich wovon ich spreche; für alle, die noch keine Erfahrung mit Fraktur & OCR haben. In der Regel sieht das aus wie rechts unten. (Das Buch ist bewusst völlig beliebig aus dem Internet Archive gezogen; zunächst als pdf, das per Acrobat in jpgs abgespeichert wurde. Geht alles ruckzuck.)

*
Aber damit Sie sehen, dass die fünf Minuten Installieren durchaus die Mühe wert sind. Hier das Tesseract-Resultat:

*
Die Seite ist schließlich nicht gerade blütenweiß. Falls Sie es selbst ausprobieren wollen, machen Sie einfach Folgendes:

Ziehen Sie sich hier die Installationsdatei mit dem Namen a9t9.FreeOcrWindowsDesktop-Setup.1.exe. (Falls der Download nicht gleich angeboten wird; die Datei befindet sich am unteren Ende der Seite.)
Nachdem Sie die Datei auf der Festplatte haben, installieren Sie sie wie gewohnt.
Falls Ihre Installationsroutine Sie nicht aufgefordert hat, die gewünschten Sprachen (darunter die deutsche Fraktur-Option) auszuwählen, ziehen Sie sich die Datei mit dem Namen

deu-frak.traineddata hier.
Starten Sie das Program und klicken Sie unter Help die Optionen Open Language Folder. In das Verzeichnis, das sich öffnet, kopieren / verschieben Sie die eben gezogene Datei namens deu-frak.trainedata.
Schließen Sie das Programm; starten Sie es wieder. Jetzt müsste rechts unter Ocr language auch die Option deu-fra zur Verfügung stehen.

Das war’s auch schon & sollte jetzt so aussehen:

Test: Ziehen Sie erst mal probehalber einen Scan (jpg, tif, egal) mit Text in normaler moderner Schrift in das linke Feld mit dem blauen Männchen. Drücken Sie auf Start Ocr. Serifen oder nicht, das sollte fehlerfrei eingelesen werden. Schon dafür lohnt sich das Bisschen Installieren.

Probieren Sie’s aus. Gerade im Internet Archive können Sie die Bücher auch als einzelne Scans ziehen. Das Programm verarbeitet ganze Verzeichnisse im Batch-Verfahren. Drücken Sie dazu nach dem Laden der Scans auf Process all Pages. Sie müssen ja nicht zuschauen.

Und noch ein Tipp: Da OCR-Fehler stets gewisse Regelmäßigkeiten aufweisen, sind besonders häufige Fehler mit ALLES ERSETZEN in Ihrer Textverarbeitung mit einigen Handgriffen ausgemerzt. Zum Beispiel das »ii« für »ü«…

Und vergessen Sie nicht, jeweils unter Ocr language die Sprache einzustellen, in unserem Falle deu-fra.

Nachtrag 1.3.2018: Die beiden alten Titel, die Sie hier im Blog in Fortsetzungen mitlesen können, sind in Fraktur gesetzt & mit Tesseract eingelesen. Genthe, Deutsches Slang und Hiebslac, Englische Sprach-Schnitzer. Und ohne Schmäh, das Ergebnis ist nicht viel schlechter als das, was sich mein teurer Abby Finereader bei kursiv gesetzten Passagen in neuen Büchern zuweilen leistet, wenn ihm der Font nicht zusagt.

Nachtrag 12.3.2019: So oft mache ich das ja nun auch wieder nicht, aber manchmal braucht man eben doch wieder ein Zitat, und dann spielt man wieder mit dem Teil rum. Hier ein Screenshot einer Seite aus Mark Twains Humoresken.

Und ich bin immer wieder erstaunt. Was haben wir an Fehlern? »Mißgeschick«. Da hat sich das Programm mächtig verguckt. Aber, machen wir mal die Probe aufs Exempel. Ich habe das ganz Buch eingelesen. Das waren 291 Seiten (Graustufen-jpgs; kein pdf!!!). Was übrigens nicht viel länger gedauert hat, als mir rasch einen frischen Eimer Kaffee zu brauen. Abgespeichert als Word-Dokument, lässt sich das Ergebnis sofort checken. Durchaus ein bißchen bange, suche ich weitere Wörter mit »Miß«. Und ich finde »Mißlaut«, »Mißfallen«, »Mißverständnis«, »Mißgriff« etc. Also durchaus ein Ausrutscher.

Okay, »der. ¶ Regulator« und »werdens«. Da hat er einen Fliegenschiss als Punkt gelesen und einen Punkt als »s«. Ist aber im ganzen Buch nur einmal passiert! Alle anderen Stellen sind korrekt als »werden.« gelesen. Dann haben wir noch »Jcb« statt »Ich«. Auch hier checke ich wieder das ganze Buch: »Jcb« finde ich nicht noch mal, sondern in der Regel ein korrektes »Ich« am Satzanfang. Ich finde jedoch so einige »Jch«, 325, um genau zu sein. Aber mit »Alle ersetzen« sind die auf einen Streich getilgt.

Noch einen Punkt mit Absatzmarke: »solle. ¶ es« und ein überflüssiges »s«: »Seelenpeinsum«.

Und natürlich sind wieder viele »ii« statt »ü«, aber die sind mit »Alle ersetzen« auf einen Streich getilgt: alle 239.

Aber nochmal: All diese Lesefehler sind bei mir längst in einem Makro gesammelt. Und damit hatte ich mit einem Klick einen nahezu fehlerfreien 300-seitigen Mark-Twain-Band & das Zitat, das ich gesucht hatte. Und das, da man bei der Texterkennung ja nicht zugucken muss, praktisch im Handumdrehen.