Hier der Original-Text; er war im Blocksatz gesetzt: Die ersten Bemühungen, gedruckte Buchstaben maschinell lesbar zu machen, führten bereits im Jahr 1927 zu einem Reichspatent für eine "Vorrichtung zur Steuerung von Maschinen durch strahlende Energie". Diese Maschine konnte alle Ziffern mit einer sich drehenden Trommel und einer Fotodiode durch einfachen Mustervergleich erkennen! Die Methode des Mustervergleichs wird auch heute noch mit Hilfe leistungsfähiger Computer und teurer Scanner an- gewandt und ständig verbessert. Und trotzdem: Jedes Kind macht nach der Grundschule weniger Fehler beim Lesen einer Zeitschrift als die beste Texterkennungsanlage. Schon so einfache Attribute wie unterstrichener oder mit einem Schatten unterlegter Text weisen die OCR in ihre Schranken- ganz zu schweigen von individuellen Handschriften. Die Domäne der Texterkennungssysteme liegt dagegen bei den normalen, schnörkellosen Schrifttypen in Büchern oder auf Schreibmaschinenseiten. Professionelle Systeme erreichen dabei schon Erkennungsraten von 1000 Zeichen pro Sekunde - bei ebenso professionellen Preisen, versteht sich. Anzahl Buchstaben: 926 fehlerhaft: 0 Texterkennung: 100% Fehlerquote: 0% Hier das Ergebnis der Texterkennung, lediglich mit dem Datensatz "TimesRoman" ausgestattet: Die ersten Bemühungen, gedruckte Bucbstabeo maschioell lesbar zu macben, fübrten bereits im Jahr 1927 zu einem Reicbspateot für eine "M/onöcbtung zur Steuerung von Mascbioen durcb strahlende Energire"- Diese Mascbine konnte alle 2Liffern mit einer sicb drebeoden Trommel uud eiuer Eotodiode durch eiofachen Mustervergleicb erkeuueoi Die Methode des Mustervergleicbs vVird aucb beute uoch mit IIiJfe Jeisrungs fähl-ger Compucer uud tcurer Scauuer au- gevVaodt uod ständig verbessert- Uod trotzdem^ Jedes Mjod maebt uach der Gruudscbule weoiger Feh1er beim Leseu einer GLeitsehrift als die beste Texterkennuogsaolage- Sebon so eiufache Attuibute vVie unterstricheuer oder mit einem Schatteu uoterlegter Text weisen die DCR iu ibre Scbrauken - gauz zu schvVeigen vou iudividuelleu IIaudsehuifteu- Die Domäne der Texterkeooungssysteme liegt dagegeu bei deu oornnaleo, schnörkelloseo Scbfltypeo in Bücbern oder auf Scheibmascbineuseiten- Professiooelle Systeme erreicbeo dabei scboo Erkeooungsrateu von 1 Zeiebeu pro Sekunde . bei ebenso professionellen Preiseo, verslebt sicb- Anzahl Buchstaben: 926 Fehler: 117 Texterkennung: 87,4 % Fehlerquote: 12,6 % Anschließend wurden dem Programm die ersten zwei Zeilen des Textes durch die "Teach-In"-Funktion gelehrt. Hier das Ergebnis der darauf folgenden Texter- kennung: Die ersten Bemühungen, gedruckte Buchstaben maschinell lesbar zu machen, führten bereits im Jahr 1927 zu einem Reichspatent für eine "M/onöchtung zur Steuerung von Maschinen durch strahlende Energire"- Diese Maschine konnte alle 2Liffern mit einer sich drehenden Trommel und einer Eotodiode durch einfachen Mustervergleich erkenneni Die Methode des Mustervergleichs vVird auch heute noch mit IIiJfe Jeisrungs fähl-ger Compurer und tcurer Scanner an- gevVandt und ständig verhessert- Und trotzdem^ Jedes Mjnd macht nach der Grundschule weniger Feh1er beim Lesen einer GLeitschrift als die beste Texterkennungsanlage- Sehon so einfache Attuibute vVie unterstrichener oder mit einem Schatten unterlegter Text weisen dieDCR in ihre Schranken - ganz zu schvVeigen von individuellen IIandschuiften- Die Domäne der Texterkennungssysteme liegt dagegen hei den nornnalen, schnörkellosen Schfltypen in Büchern oder auf Scheibmaschinenseiten- Professionelle Systeme erreichen dahei schon Erkennungsraten von 1 Zeichen pro Sekunde . bei ebenso professionellen Preisen, versleht sich- Anzahl Buchstaben: 926 Fehler: 40 Texterkennung: 95,7 % Fehlerquote: 4,3 % Anschließend wurde der gesamte Text durch die "Teach-In"-Funktion erfaßt. Dabei sind mir allerdings selbst einige Fehler unterlaufen. Trotzdem, hier das Ergebnis: Die ersten Bemühungen, gedruckte Buchstaben maschinell lesbar zu machen, führten bereits im Jahr 1927 zu einem Reichspatent für eine"Vorrrichtung zur Steuerung von Maschinen durch strahlende Energi". Diese Maschine konnte alle Ziffern mit einer sich drehenden Trommel und einer Fotodiode durch einfachen Mustervergleich erkennen! Die Methode des Mustervergleichs wird auch heute noch mit Hilfe leistungs fähliger Computer und tcurer Scanner an- gewandt und ständig verbessert. Und trotzdem: Jedes Kind macht nach der Grundschule weniger Fehler beim Lesen einer Zeitschrift als die beste Texterkennungsanlage. Schon so einfache Attribute wie unterstrichener oder mit einem Schatten unterlegter Text weisen dieROCR in ihre Schranken - ganz zu schweigen von individuellen Handschriften. Die Domäne der Texterkennungssysteme liegt dagegen bei den normalen, schnörkellosen Schfttypen in Büchern oder auf Schreibmaschinenseiten. Professionelle Systeme erreichen dabei schon Erkennungsraten von 1 Zeichen pro Sekunde . bei ebenso professionellen Preisen, versleht sich. Anzahl Buchstaben: 926 Fehler: 12 Texterkennung: 98,7 % Fehlerquote: 1,3 % Der letzte Test sollte zeigen, in wieweit das Texterkennungsprogramm ScanRead wirklich in der Lage ist, durch einen vorher gelernten Datensatz, einen anderen Text, als den gelernten (aber in der gleichen Schriftart) umzusetzen. Ich möchte Euch nicht mit dem Original-Text langweilen, deshalb gleich der erkannte Text mit Bewertung: Ein Darensatz enthält Struktur-Beispiele jedesVdpha-Humeri. schenZeichens (also einschließlich Sonderzeichen, Ziffern und Punktierungen) der jeweiligen Schrift. Wenn Sie einen Text erkennen lassen wollen, müssen Sie vorher einen dem Schriftstil entsprechenden lOatensatz laden oder die Schrift individuell"lerne" "Teach-I", siehe unten). Mit ScanRead werden 9 Datensätze geliefert, die die meisten der heute üblichen Satz-Schriftanen abdeckcn. Sie lassen sich laden, speichern, zusammenbinden "merge"), erweitern und sogar selbst erstellen (siehe"Teach-l"). Anzahl Buchstaben: 498 Fehler: 15 Texterkennung: 97 % Fehlerquote: 3,0 % Fazit: Ich habe leider keine Vergleichsmöglichkeiten mit anderen Geräten und Software. Aber allein schon die Tatsache, daß die Texterkennung sogar die Zeilen relativ reibungslos übersetzt hat, in denen ich mit dem Scanner ein wenig verwackelt hatte, finde ich bemerkenswert. Die Verarbeitung von Blocksatz, mit seinen wechselnden Buchstabenabständen ist auch nicht jedermanns Sache. Außerdem dürfte wohl jedem aufgefallen sein, daß durch das Lernen von nur zwei Zeilen die Texterkennung erheblich gesteigert werden konnte. Mit einem Teach-In von fünf bis sechs Zeilen eines Textes dürfte sich der Rest desselben Textes (oder eines anderen Textes in derselben Schriftart) mit einer Fehlerquote von durchschnittlich unter 4 % übertragen lassen. Das ist schon eine stramme Leistung für ein so preiswertes System. Warum habe ich eigentlich die ganzen Texte hier abgedruckt, wird sich jetzt wohl der ein oder andere fragen. Hier die Antwort: Bei jedem Scanner-Test in irgendwelchen Zeitschriften werden Texterkennungsraten und Fehlerquoten aus- gegeben. Wer kann sich aber was darunter vorstellen, wenn da gesagt wird, daß eine Texterkennung eine Fehlerquote von "weniger als 5 %" hat ? Wie sieht ein Text aus, der mit 5 % Fehlern gespikt ist ? Genau das wollte ich allen Lesern mal vorführen. Selbst der Text mit weniger als 2 % Fehlern läßt noch genügend Arbeit für den Korrektor übrig ! Also keine rosigen Zeiten für Faulpelze. Trotzdem: Mir ist es lieber, wenn ich einen Text in 10 Sekunden eingescannt, den Zeichensatz in 2 Minuten "geteacht" und den Text in fünf Minuten korrigiert habe, als ihn in einer halben Stunde abzutippen (und sei die Textverarbeitung noch so komfortabel !).