SlangGuy's Blog ...

Jetzt reden wir doch mal Fraktur…

Haben Sie hin & wie­der mit in Frak­tur gesetz­ten Tex­ten zu tun? Wol­len Sie aus einem sol­chen zitie­ren oder das Teil ein­fach durch­such­bar machen? Viel­leicht wol­len Sie so eine alte Schwar­te in Ihrem feschen E‑Reader les­bar in den Urlaub mit­neh­men. Ich zei­ge Ihnen rasch, wie das geht, ohne dass Sie die hap­pi­gen Prei­se für die Frak­tur-Optio­nen der gro­ßen OCR-Pro­gram­me berap­pen müs­sen. In maxi­mal zehn Min­un­ten – nach Über­flie­gen des Arti­kels – kön­nen Sie los­le­gen.

Hin­weis: Die­ser Arti­kel ist ver­al­tet! Sehen Sie mei­ne jüngs­ten Erkennt­nis­se zum The­ma hier.

… nach all den Mails mit Fra­gen habe ich mich noch mal mit der Mate­rie befasst & so eini­ge inter­es­san­te Sachen gefun­den, die ich in abseh­ba­rer Zeit hier im Blog vor­stel­len möch­te. Es hat sich da Eini­ges getan! Aber ich wür­de gern wie­der eine Kom­plett­lö­sung mit aus­führ­li­cher Anlei­tung & ein­schlä­gi­gen Links bie­ten. Das ist eine Men­ge Arbeit. Am bes­ten kom­men Sie dem­nächst wie­der mal vor­bei, dann fin­den Sie hier den Link zum neu­en Arti­kel. Es lohnt sich, glau­ben Sie mir: Die Ergeb­nis­se bei der OCR-Erken­nung sind damit weit bes­ser als alles hier Vor­ge­stell­te. Ich bin noch am Pro­bie­ren. Und es soll ja wie­der eine Lösung mit Win­dows-Ober­flä­che wer­den, da nicht jeder mit Kom­man­do­zei­len umge­hen kann bzw. möch­te. Ich habe unter Win­dows auch lie­ber alles mit einer über­sicht­li­chen Benut­zer­ober­flä­che … Linux- bzw. ins­be­son­de­re Ubun­tu-User soll­ten noch mal goo­geln & kön­nen dann rela­tiv schnell los­le­gen. Also noch ein biss­chen Geduld. Ich bin begeis­tert von den ers­ten Expe­ri­men­ten … 16.2.2022

Alte Tex­te in Frak­tur sind heu­te über­all im Web als Scans zu bekom­men, sei es bei Goog­le oder im Inter­net Archi­ve oder bei der einen oder ande­ren Staats­bi­blio­thek. Das Pro­blem ist nur, dass man die­se Scans oder PDFs nicht mehr durch­su­chen kann, hat man sie erst mal auf der eige­nen Fest­plat­te. Zwar gibt es Frak­tur-Zusät­ze für die bes­se­ren OCR-Pro­gram­me, aber die sind sakrisch teu­er & ehr­lich gesagt – wenn über­haupt – nicht viel bes­ser als das kos­ten­lo­se Teil, das ich Ihnen hier zei­gen möch­te. Ich benut­ze es seit eini­gen Jah­ren, und da ich’s eben neu instal­lie­ren muss­te, möch­te ich das gleich mal zum Nach­ma­chen für alle notieren. 

Vor­ab: Ver­ges­sen Sie bei Frak­tur feh­ler­frei; aber je nach Qua­li­tät des Scans ist das OCR-Resul­tat durch­aus brauch­bar. Wobei zu unter­schei­den ist zwi­schen der Qua­li­tät der Vor­la­ge (Gilb, Flie­gen­schiss etc.) und dem Scan selbst – wenn der auf hauch­dünn her­un­ter­ge­rech­net ist, dann ist das sinn­los.1 (Die von Tes­seract ange­bo­te­ne pdf-Opti­on ver­ges­sen Sie erst mal bes­ser. Zer­le­gen Sie pdf-Doku­men­te per Acro­bat o.ä. in jpgs, tifs o.ä.)

Sie wis­sen ver­mut­lich wovon ich spre­che; für alle, die noch kei­ne Erfah­rung mit Frak­tur & OCR haben. In der Regel sieht das aus wie rechts unten. (Das Buch ist bewusst völ­lig belie­big aus dem Inter­net Archi­ve gezo­gen; zunächst als pdf, das per Acro­bat in jpgs abge­spei­chert wur­de. Geht alles ruckzuck.)

solm som8a

*
Aber damit Sie sehen, dass die fünf Minu­ten Instal­lie­ren durch­aus die Mühe wert sind. Hier das Tesseract-Resultat:

solm som8

*
Die Sei­te ist schließ­lich nicht gera­de blü­ten­weiß. Falls Sie es selbst aus­pro­bie­ren wol­len, machen Sie ein­fach Folgendes:

  1. Zie­hen Sie sich hier die Instal­la­ti­ons­da­tei mit dem Namen a9t9.FreeOcrWindowsDesktop-Setup.1.exe. (Falls der Down­load nicht gleich ange­bo­ten wird; die Datei befin­det sich am unte­ren Ende der Seite.)
  2. Nach­dem Sie die Datei auf der Fest­plat­te haben, instal­lie­ren Sie sie wie gewohnt.
  3. Falls Ihre Instal­la­ti­ons­rou­ti­ne Sie nicht auf­ge­for­dert hat, die gewünsch­ten Spra­chen (dar­un­ter die deut­sche Frak­tur-Opti­on) aus­zu­wäh­len, zie­hen Sie sich die Datei mit dem Namen 
  4. Star­ten Sie das Pro­gram und kli­cken Sie unter Help die Optio­nen Open Lan­guage Fol­der. In das Ver­zeich­nis, das sich öff­net, kopie­ren / ver­schie­ben Sie die eben gezo­ge­ne Datei namens deu-frak.trainedata.
  5. Schlie­ßen Sie das Pro­gramm; star­ten Sie es wie­der. Jetzt müss­te rechts unter Ocr lan­guage auch die Opti­on deu-fra zur Ver­fü­gung stehen.

Das war’s auch schon & soll­te jetzt so aussehen: 

tess*

Test: Zie­hen Sie erst mal pro­be­hal­ber einen Scan (jpg, tif, egal) mit Text in nor­ma­ler moder­ner Schrift in das lin­ke Feld mit dem blau­en Männ­chen. Drü­cken Sie auf Start Ocr. Seri­fen oder nicht, das soll­te feh­ler­frei ein­ge­le­sen wer­den. Schon dafür lohnt sich das Biss­chen Installieren.

*

black11 meme

Pro­bie­ren Sie’s aus. Gera­de im Inter­net Archi­ve kön­nen Sie die Bücher auch als ein­zel­ne Scans zie­hen. Das Pro­gramm ver­ar­bei­tet gan­ze Ver­zeich­nis­se im Batch-Ver­fah­ren. Drü­cken Sie dazu nach dem Laden der Scans auf Pro­cess all Pages. Sie müs­sen ja nicht zuschauen.

Und noch ein Tipp: Da OCR-Feh­ler stets gewis­se Regel­mä­ßig­kei­ten auf­wei­sen, sind beson­ders häu­fi­ge Feh­ler mit ALLES ERSETZEN in Ihrer Text­ver­ar­bei­tung mit eini­gen Hand­grif­fen aus­ge­merzt. Zum Bei­spiel das »ii« für »ü«…

Und ver­ges­sen Sie nicht, jeweils unter Ocr lan­guage die Spra­che ein­zu­stel­len, in unse­rem Fal­le deu-fra.

Nach­trag 1.3.2018: Die bei­den alten Titel, die Sie hier im Blog in Fort­set­zun­gen mit­le­sen kön­nen, sind in Frak­tur gesetzt & mit Tes­seract ein­ge­le­sen. Gen­the, Deut­sches Slang und Hiebs­lac, Eng­li­sche Sprach-Schnit­zer. Und ohne Schmäh, das Ergeb­nis ist nicht viel schlech­ter als das, was sich mein teu­rer Abby Fine­rea­der bei kur­siv gesetz­ten Pas­sa­gen in neu­en Büchern zuwei­len leis­tet, wenn ihm der Font nicht zusagt.

Nach­trag 12.3.2019: So oft mache ich das ja nun auch wie­der nicht, aber manch­mal braucht man eben doch wie­der ein Zitat, und dann spielt man wie­der mit dem Teil rum. Hier ein Screen­shot einer Sei­te aus Mark Twa­ins Humo­res­ken.

*

Und ich bin immer wie­der erstaunt. Was haben wir an Feh­lern? »Miß­ge­schick«. Da hat sich das Pro­gramm mäch­tig ver­guckt. Aber, machen wir mal die Pro­be aufs Exem­pel. Ich habe das ganz Buch ein­ge­le­sen. Das waren 291 Sei­ten (Grau­stu­fen-jpgs; kein pdf!!!). Was übri­gens nicht viel län­ger gedau­ert hat, als mir rasch einen fri­schen Eimer Kaf­fee zu brau­en. Abge­spei­chert als Word-Doku­ment, lässt sich das Ergeb­nis sofort che­cken. Durch­aus ein biß­chen ban­ge, suche ich wei­te­re Wör­ter mit »Miß«. Und ich fin­de »Miß­laut«, »Miß­fal­len«, »Miß­ver­ständ­nis«, »Miß­griff« etc. Also durch­aus ein Ausrutscher.

Okay, »der. ¶ Regu­la­tor« und »wer­dens«. Da hat er einen Flie­gen­schiss als Punkt gele­sen und einen Punkt als »s«. Ist aber im gan­zen Buch nur ein­mal pas­siert! Alle ande­ren Stel­len sind kor­rekt als »wer­den.« gele­sen. Dann haben wir noch »Jcb« statt »Ich«. Auch hier che­cke ich wie­der das gan­ze Buch: »Jcb« fin­de ich nicht noch mal, son­dern in der Regel ein kor­rek­tes »Ich« am Satz­an­fang. Ich fin­de jedoch so eini­ge »Jch«, 325, um genau zu sein. Aber mit »Alle erset­zen« sind die auf einen Streich getilgt.

Noch einen Punkt mit Absatz­mar­ke: »sol­le. ¶ es« und ein über­flüs­si­ges »s«: »See­len­pein­sum«.

Und natür­lich sind wie­der vie­le »ii« statt »ü«, aber die sind mit »Alle erset­zen« auf einen Streich getilgt: alle 239.

Aber noch­mal: All die­se Lese­feh­ler sind bei  mir längst in einem Makro gesam­melt. Und damit hat­te ich mit einem Klick einen nahe­zu feh­ler­frei­en 300-sei­ti­gen Mark-Twa­in-Band & das Zitat, das ich gesucht hat­te. Und das, da man bei der Tex­terken­nung ja nicht zugu­cken muss, prak­tisch im Handumdrehen.

T002

~~~~~~~~~~~~~~~~~~~

Bücher zum Thema

bei amazon.com
dia1 dia2 dia3

~~~~~~~~~~~~~~~~~~~

tex­terken­nung deutsch frak­tur ocr kostenlos

  1. Gera­de Abby Fine­rea­der Sprint-pdfs sind unge­eig­net. Scan­nen Sie lie­ber mit XnView ordent­li­che »Bil­der«. []

Schreibe einen Kommentar