Haben Sie hin & wieder mit in Fraktur gesetzten Texten zu tun? Wollen Sie aus einem solchen zitieren oder das Teil einfach durchsuchbar machen? Vielleicht wollen Sie so eine alte Schwarte in Ihrem feschen E‑Reader lesbar in den Urlaub mitnehmen. Ich zeige Ihnen rasch, wie das geht, ohne dass Sie die happigen Preise für die Fraktur-Optionen der großen OCR-Programme berappen müssen. In maximal zehn Minuten – nach Überfliegen des Artikels – können Sie loslegen.
Alte Texte in Fraktur sind heute überall im Web als Scans zu bekommen, sei es bei Google oder im Internet Archive oder bei der einen oder anderen Staatsbibliothek. Das Problem ist nur, dass man diese Scans oder PDFs nicht mehr durchsuchen kann, hat man sie erst mal auf der eigenen Festplatte. Zwar gibt es Fraktur-Zusätze für die besseren OCR-Programme, aber die sind sakrisch teuer & ehrlich gesagt – wenn überhaupt – nicht viel besser als das kostenlose Teil, das ich Ihnen hier zeigen möchte. Ich benutze es seit einigen Jahren, und da ich’s eben neu installieren musste, möchte ich das gleich mal zum Nachmachen für alle notieren.
Vorab: Vergessen Sie bei Fraktur fehlerfrei; aber je nach Qualität des Scans ist das OCR-Resultat durchaus brauchbar. Wobei zu unterscheiden ist zwischen der Qualität der Vorlage (Gilb, Fliegenschiss etc.) und dem Scan selbst – wenn der auf hauchdünn heruntergerechnet ist, dann ist das sinnlos.1 (Die von Tesseract angebotene pdf-Option vergessen Sie erst mal besser. Zerlegen Sie pdf-Dokumente per Acrobat o.ä. in jpgs, tifs o.ä.)
Sie wissen vermutlich wovon ich spreche; für alle, die noch keine Erfahrung mit Fraktur & OCR haben. In der Regel sieht das aus wie rechts unten. (Das Buch ist bewusst völlig beliebig aus dem Internet Archive gezogen; zunächst als pdf, das per Acrobat in jpgs abgespeichert wurde. Geht alles ruckzuck.)
*
Aber damit Sie sehen, dass die fünf Minuten Installieren durchaus die Mühe wert sind. Hier das Tesseract-Resultat:
*
Die Seite ist schließlich nicht gerade blütenweiß. Falls Sie es selbst ausprobieren wollen, machen Sie einfach Folgendes:
Das war’s auch schon & sollte jetzt so aussehen:
Test: Ziehen Sie erst mal probehalber einen Scan (jpg, tif, egal) mit Text in normaler moderner Schrift in das linke Feld mit dem blauen Männchen. Drücken Sie auf Start Ocr. Serifen oder nicht, das sollte fehlerfrei eingelesen werden. Schon dafür lohnt sich das Bisschen Installieren.
*
Probieren Sie’s aus. Gerade im Internet Archive können Sie die Bücher auch als einzelne Scans ziehen. Das Programm verarbeitet ganze Verzeichnisse im Batch-Verfahren. Drücken Sie dazu nach dem Laden der Scans auf Process all Pages. Sie müssen ja nicht zuschauen.
Und noch ein Tipp: Da OCR-Fehler stets gewisse Regelmäßigkeiten aufweisen, sind besonders häufige Fehler mit ALLES ERSETZEN in Ihrer Textverarbeitung mit einigen Handgriffen ausgemerzt. Zum Beispiel das »ii« für »ü«…
Und vergessen Sie nicht, jeweils unter Ocr language die Sprache einzustellen, in unserem Falle deu-fra.
Nachtrag 1.3.2018: Die beiden alten Titel, die Sie hier im Blog in Fortsetzungen mitlesen können, sind in Fraktur gesetzt & mit Tesseract eingelesen. Genthe, Deutsches Slang und Hiebslac, Englische Sprach-Schnitzer. Und ohne Schmäh, das Ergebnis ist nicht viel schlechter als das, was sich mein teurer Abby Finereader bei kursiv gesetzten Passagen in neuen Büchern zuweilen leistet, wenn ihm der Font nicht zusagt.
Nachtrag 12.3.2019: So oft mache ich das ja nun auch wieder nicht, aber manchmal braucht man eben doch wieder ein Zitat, und dann spielt man wieder mit dem Teil rum. Hier ein Screenshot einer Seite aus Mark Twains Humoresken.
Und ich bin immer wieder erstaunt. Was haben wir an Fehlern? »Mißgeschick«. Da hat sich das Programm mächtig verguckt. Aber, machen wir mal die Probe aufs Exempel. Ich habe das ganz Buch eingelesen. Das waren 291 Seiten (Graustufen-jpgs; kein pdf!!!). Was übrigens nicht viel länger gedauert hat, als mir rasch einen frischen Eimer Kaffee zu brauen. Abgespeichert als Word-Dokument, lässt sich das Ergebnis sofort checken. Durchaus ein bißchen bange, suche ich weitere Wörter mit »Miß«. Und ich finde »Mißlaut«, »Mißfallen«, »Mißverständnis«, »Mißgriff« etc. Also durchaus ein Ausrutscher.
Okay, »der. ¶ Regulator« und »werdens«. Da hat er einen Fliegenschiss als Punkt gelesen und einen Punkt als »s«. Ist aber im ganzen Buch nur einmal passiert! Alle anderen Stellen sind korrekt als »werden.« gelesen. Dann haben wir noch »Jcb« statt »Ich«. Auch hier checke ich wieder das ganze Buch: »Jcb« finde ich nicht noch mal, sondern in der Regel ein korrektes »Ich« am Satzanfang. Ich finde jedoch so einige »Jch«, 325, um genau zu sein. Aber mit »Alle ersetzen« sind die auf einen Streich getilgt.
Noch einen Punkt mit Absatzmarke: »solle. ¶ es« und ein überflüssiges »s«: »Seelenpeinsum«.
Und natürlich sind wieder viele »ii« statt »ü«, aber die sind mit »Alle ersetzen« auf einen Streich getilgt: alle 239.
Aber nochmal: All diese Lesefehler sind bei mir längst in einem Makro gesammelt. Und damit hatte ich mit einem Klick einen nahezu fehlerfreien 300-seitigen Mark-Twain-Band & das Zitat, das ich gesucht hatte. Und das, da man bei der Texterkennung ja nicht zugucken muss, praktisch im Handumdrehen.
~~~~~~~~~~~~~~~~~~~
Bücher zum Thema
~~~~~~~~~~~~~~~~~~~
texterkennung deutsch fraktur ocr kostenlos
Der Einfluss des Großen Geldes auf die Politik ist ein offenes Geheimnis. Das geht vom…
Wir sind bei all dem Trubel in dieser turbulenten Seifenoper von einem Wahlkampf noch gar…
Nachdem Trumps Reden von Tag zu Tag hysterischer werden, sein hasserfülltes Gekeife von Tag zu…
Die in der US-Verfassung verankerten Wahlleute (electors) und ihre enorme Bedeutung sowie die Probleme, die…
Nicht nur in den USA gibt es immer noch Leute, die Donald Trump, wenn schon…
Die Hurrikane Helene und Milton haben 2024 über 200 Menschen das Leben gekostet und Zigtausende…