Diese Notiz löschen
Hinweis zur Löschung inaktiver Anmeldungen: *klick*

Diese Notiz löschen
Keine Bestätigungsmail für die Registrierung erhalten? *klick*


OCR-Gewohnheiten und best-practises
#1

Ich will hier eine Diskussion gesondert fortsetzen und zum Austausch geben, die ich im Zweig Digital-Cleaning beim Thread "Zentraler Ordner für Dokumenten-Transfer" begonnen habe.

Das Thema bzw. die Kernfrage ist: Mit welcher OCR-Routine habe ich wie gute Ergebnisse - im Vergleich zum Aufwand ...

Beim Digitalisieren mit meinen Fujitsu ix500 schließt sich bei mir - wie im anderen Thread beschrieben u.a. eine zweite Bearbeitungschleife - bei PDF meist mit der Acrobat-Vollversion aus dem Bundle beim Kauf des ix500 - an. (versehentlich erfasste leere Blätter löschen, ADOBE-OCR-drüber laufen lassen, dabei Dokument ggf. "optimieren" und auf andere Auflösung umrechnen lassen; Dokument aus Sammelscan ggf. teilen usw. usf.).

Anders als z.B. Herbert oder "Rosa Elefant" belasse ich es häufig nicht (nur) bei der (rasend schnellen) Hintergrund-OCR mt dem ix500 (wohl Hintergrund im Verbund mit einer abgespeckten ABBY-Version).

Mich und vielleicht auch andere würde sicher interessieren, welche Erfahrungen es anderswo in Bezug auf Weiterverwertbarkeit und Qualität der digitalen Abbilder mit der einen oder anderen Vorgehensweise oder Tools und Software bestehen.

Ich für mich bin mir noch nicht so ganz sicher, bei welchem System (ABBY in Kombination mit dem iX500) oder anschließend mit ADOBE beim PDF mir die Ergebnisse in puncto Erkennungsrate und nachzubearbeitende Zeilenumbrüche besser gefallen.



Beste beim vollständig fehlerfreien Erschließen gescannter Texte habe ich selbst mit einer vollständigen gesonderten Bearbeitung bei einem Spezialwerkzeug wie ABBY FineReader. Das bringt bei mir aber einen lästigen und kleinteiligen Arbeitsaufwand mit, der sich nur selten lohnt.

Wo es drauf ankommt, nutze ich deswegen für für bessere bzw. einfacher weiterverarbeitbare Textauszüge aus bereits OCR-bearbeiteten Dokumenten häufig auch den ABBY Screen-Reader. [Da lässt sich auch die Anzeige des Originals so hoch skalieren, dass die Erkennungsrate des Screen-Readers noch besser wird...]


Rosa Elefant hat zum o.a. Thread "Zentraler Ordner für Dokumenten-Transfer" zu Recht eingewandt, dass es für eine schnelle, rein digitale Ablage meist nicht darauf ankommt, ob es zusätzliche Fehlseiten im Scan oder Fehler in der Texterkennung gibt, und dass sich deswegen auch die Frage nach einem "wozu nachbearbeiten" stellt.

OCR-Nachbearbeitung mache ich z.B. meist insbesondere dort, wo ich die Inhalte ggf. schnell wörtlich verwenden oder zitieren möchte. Das kann bei mir z.B. die wörtliche Verwertung und Verwendung von Inhalten und Textpassagen aus Urteilen oder jurist. Aufsätzen sein. Auch bei einzelnen Unterlagen wie Verträgen, bei denen ich vielleicht die genauere Kündigungsregelung haben möchte (die sich nicht gleich woanders besser kopieren lässt...) ist mir eine weitestgehend fehlerfreie und unmittelbar weiterverwertbare Auswertung wichtig. (Die Dateien selbst, brauch ich danach - wie Rosa Elefant - nur noch selten und ggf. als Beleg. Ansonsten nutze ich primär meinen möglichst originalgetreuen text-Inhaltsauszug...)


Was sind Eure Erfahrungen, Werkzeuge, Abläufe und Tipps zu diesem Thema?
Zitieren
#2

Themen rund um Texterkennung interessieren hier mit Sicherheit viele Leute - daher nochmals danke für Deine ausführliche Schilderung.

Hier jetzt nur eine kurze Ergänzung für all jene, die Scanner ohne OCR einsetzen oder weder Acrobat noch Abby nehmen möchten: Der bekannte und kostenlose PDF24-Creator, den viele verwenden, hat in einem seiner jüngsten Updates ebenfalls eine Texterkennung spendiert bekommen, die nach meinen ersten Tests auch recht gut funktioniert. Wer also schon länger kein Update gemacht hat ... zur PDF24-Homepage.

   
Zitieren
#3

Habe jetzt mal neugierhalber einen kleinen Minivergleich / Minitest versucht:

Ich habe einen 2-seitigen bunten Flyer mit mehreren Textabsätzen 2 x über den ix500 geschickt.
- 1 x ging es in einen Dateieingangsordner, wo sich eine OCR-Nachbearbeitung mit ADOBE anschloss.
- Der andere Scan ging vom ix500 mit integrierter Texterkennung (vermutlich mit einer ABBYY FR-Version) direkt als PDF in Evernote.

Im Vergleich der Ergebnisse (nur bei den ersten 3 Absätzen) hat sich Folgendes gezeigt:
- Die Texterkennungsgenauigkeit war gleichermaßen hoch. ADOBE hatte zwei kleinere Fehler, bei denen Wörter mit zwei zusätzlichen Leerzeichen getrennt 
waren. Der Automatik-Scan mit Scanner+ABBYY FR hatte nur einen Fehler (1 x i statt j).
- Die ADOBE-Datei war etwa 20 % kleiner.
- Der Text aus der ADOBE-Datei kam beim Einfügen an anderer Stelle teilweise formatiert, der aus Scanner+ABBYY FR war weitgehend fomatierungsfrei.
- Beide OCR-Texte lieferten den Text nur zeilenweise umgebrochen (jede Zeile ein Absatz).

Das Ergebnis ist mit diesem Test ganz sicher noch nicht repräsentativ. Die Vorlage war scheinbar auch keine große Herausforderung.

In beiden Varianten ist allerdings im Zweifel viel Handarbeit gefragt, wenn man den Text anderweitig weiter nutzen möchte...

Oder man behilft sich mit anderweitigen Routinen: In MS Word habe ich dafür ein selbstgestricktes VBA-Makro, das die Aufgabe hat, alle Absätze in einem markierten Bereich oder auch in einer ganzen Datei mit regulären Ausrücken zu überprüfen und ggf. zu löschen bzw. gegen Leerzeichen auszutauschen. Wenige hinterlegte reguläre Ausdrücke zum Ersetzen reichen dabei aus, große Passagen halbautomatisch und zu ca. 90 - 95 % zutreffend von solchen ungewollten Absätzen zu befreien.

Eine andere Lösung - mit manchmal weniger Nachbearbeitung -, für die die eine Vollversion von ABBYY FR (auch als älteres ebay-Exemplar) erworben haben, ist bei mir wie oben beschrieben die Nutzung des ABBYY Screnshot Readers. Texte die darüber gescannt werden, werden weitgehend zuverlässig als zeilenübergreifende Fließtextabsätze erkannt.
Zitieren
#4

Ich weiß zwar jetzt nicht, ob ich dich nicht falsch verstanden habe ... aber mir erschließt sich diese aufwändige Arbeit nicht wirklich.

Ich scanne schon lange nicht mehr über einen Scanner, sondern auf dem Smartphone mit der CamScanner-App. In der Premiumversion hat man damit ein excellentes OCR, exportierbar, durchsuchbar als .txt Files z.B. - und es funktioniert perfekt bei mir.

Man kann die App auch einmal in der kostenlosen Version testen, allerdings ist da das OCR nicht exportierbar und nur ein "schnelles auto":

https://www.camscanner.com/team/price
Zitieren
#5

Als Ergänzung zu Birgit:

Bei mir laufen 2 Scan-Pfade:

- Was ich organisiert im HomeOffice scanne, läuft über meinen iX500, meist direktes OCR und ab nach Evernote. Vorteil insbesondere der Vorlageneinzug, gerade bei mehrseitigen Dokumenten. In Evernote steht es in der Inbox, und muss dort noch nachbearbeitet werden (Überschrift, Tags, Notizbuch).

- On the fly oder kurze Scans zwischendurch mache ich mit dem Handy (iPhone 6S+). Ich nutze ScannerPro von Readdle. Das geht ratz-fatz, nur bei vielen Seiten steht man halt eine Weile und wendet und tauscht Blätter. Auch die Scanqualität fällt etwas ab, da ist der Standscanner einfach top.

Vorteile von ScannerPro:
- Gutes OCR (haben andere auch ...). Der erkannte Text wird zum Abgleich dem Textbild überlagert.
- Integration in den Workflow der Readdle-Apps. Ich spare mir ein Programm für die pdf-Bearbeitung auf dem PC, und nutze pdf-Expert auf dem iPhone und iPad. Die Vollversion (u.a. Änderung von Texten in den pdfs selbst) kostet, ist dabei immer noch deutlich günstiger als PC-Programme (über die Adobe-Abos ganz zu schweigen ...). ScannerPro ist bei pdf-Expert gleich als Eingangsordner hinterlegt.
- Eigene App-Workflows, die man sich ohne Programmierkenntnisse zusammenbauen kann. Für meine typischen Evernote-Scanziele habe ich je einen Workflow vordefiniert, komplett mit Zielnotizbuch und Standardtags für die jeweilige Dokumentenart. Scannen, Dateiname / Überschrift vergeben, Klick auf den Arbeitsablauf, und erledigt.

Das als Anregung für die Diskussion hier im Forum.
Zitieren
#6

@RosaElefant: Ja, Dein Vorgehen deckt sich in vielen Punkten mit meinen Abläufen. Trotz der tollen Smartphone-Scan-Apps möchte ich einen guten Dokumenten-Scanner im Alltag nicht mehr missen.
Ich hatte vorher lange überlegt, ob sich die hohe Geldausgabe für mein kleinen privaten Bereich wirklich lohnt. Würde aber nach, hm, ca. 3 Jahren iX500-Einsatz sagen: ja, hat sich gelohnt und lohnt sich immer noch. Außerdem scheint mir das Teil sehr langlebig zu sein - dann geht die Rechnung ähnlich wie bei meinen iOS-Geräten auf: durch die lange Haltbarkeit, regelmäßige Updates und hohen Wiederverkaufswert zahle ich unterm Strich deutlich weniger im Vergleich zu anderen Produkten, die am Anfang preisgünstiger sind.
Trotzdem gilt natürlich: Die Smartphonekameras plus Scanner-Apps sind ebenfalls recht gut und man _muss_ nicht zwingend einen Dokumentenscanner anschaffen.

@Birgit: Wenn ich es richtig sehe, muss HenningBo aufgrund seiner beruflichen (juristischen) Anforderungen oft Textstücke aus Scans kopieren und z. B. in andere Dokumente einsetzen. In diesem Fall ist es wichtig, dass er später möglichst wenig Nacharbeit hat.
Ansonsten geht es aber mir wie Dir: Es genügt mir, wenn ein Dokument gut und schnell gefunden wird - ich kopiere sehr selten Teile daraus. Daher reicht mir auch, was Apps bzw. Dokumentenscanner an OCR leisten. Auch die Dateigröße ist mir heute kaum noch wichtig, da ich offline und online mehr als genug Speicherplatz habe und über gute Bandbreiten verfüge. Das würde anders aussehen, wenn ich z. B. Kunden auf dem Land hätte, für die große Mail-Anhänge ein Problem sind. Aber meine "Kunden" sind hauptsächlich an der Uni oder in Städten.

Das zeigt, wie unterschiedlich die Anforderungen bei uns allen sind. Umso besser, wenn man Abläufe, Tools und Systeme hat, die man möglichst individuell anpassen kann.
Zitieren
#7

Ich schwöre beim Scannen am Schreibtisch auf den iX500 und nutze die „eingebaute“ OCR-Funktion. Die meisten damit gescannten Dokumente wandern nach Evernote. Nun lege ich dort (Business) für mein Team u.a. auch jede Menge Kataloge und (Bild-)Preislisten aus Downloads oder Mails unserer Geschäftspartner ab, von denen viele zwischen 20 und 120 MB groß sind. Mir ist bisher noch kein Unterschied beim Suchen und Finden aufgefallen. 
Außerdem setze ich Scanner Pro seit dem iPhone 7 ein. Auch hier bin ich mit der Qualität und den Suchergebnissen völlig zufrieden.
Aktuell hat sich aber eine besondere, für mein Business wichtige Fähigkeit der Scanner Pro-App in den Vordergrund gedrängt: Ich kann schnell und einfach A3, A2 oder noch größer scannen. Kleine Anekdote: Ich habe vor gut 4 Jahren ein großes Mufu-Gerät mit A3-Scannen, A3-Drucken, Farblaser, ADF, Mail, Fax und was noch alles für mehr als 2.500 EUR angeschafft. Jetzt ist das Gerät nach höchstens 1/4 der beworbenen Seitenzahlen ein wirtschaftlicher Totalschaden. Natürlich hat mir der Händler sofort ein Angebot für ein neues Gerät gemacht, das noch teurer ist. Werde ich selbstredend nicht annehmen. Die Ergebnisse von Scanner Pro mit iPhone X bei A3 und selbst bei A2 sind einfach zu gut. Und dann gibt es ja noch das Trägerblatt für A3 beim iX500 ...
Zitieren
#8

Na, nun hat dies Diskussion ja doch ein wenig Fahrt aufgenommen.

Lese ich Eure Beiträge, dann kommt mir der Eindruck, ich hätte vielleicht auch noch die (Um-) Frage stellen sollen, was für welche Zwecke, in welchem "setting" und vielleicht auch bei welchem beruflichen Kontext / Rahmen gescannt wird.

Ich selbst bin nicht selbständig, arbeite in einem großen "Amt", wo ich zwar auf einen großen Netzwerkscanner zugreifen kann, in Softwareausstattung und -auswahl aber begrenzt bin. Da ich nur seltener außer Haus muss und keine "Kunden"(-besuche) habe, muss ich auch in der Regel nicht mobil arbeitsfähig sein (auch wenn ich das gerne bin). Deswegen kann bei mir vieles warten und manches fast eine Woche lag gesammelt werden, bevor ich mich seiner an einem klassischen Arbeitsplatz mit "Arbeitszimmer", Regalen, Desktoprechner und überwiegend (leider) immer noch verkabelter Technikausstattung, wie auch meinem ix500 Scanner annehme.

@Birgit: Dein Setting und Deine Arbeitsmethode mit Handy und OCR-App klingt für mich gut nachvollziehbar, zugleich auch nach einem weit mobileren Ansatz und nach vielleicht ganz anderen Anforderungen. Vielen Dank für den Tipp zur CamScanner-App, sieht nach einer in sich runden Lösung aus und mit der Ausgabe für einen Scanner wie meinen/unseren kann man damit bei rd. 5 EUR je Monat für die Premium-Version mehr als 5 Jahre mobil unterwegs sein und hätte immer noch etwas übrig...

Auf meinen fest stationierten Scanner würde ich dafür aber doch nicht verzichten wollen. Wenn mehr als nur ein paar einzelne Seiten am Stück, vielleicht ganze Ordner von Papier zur nutzbarem Text überführt werden sollen, ist der Komfort- und Schnelligkeitsgewinn riesig. Gerade letzte Woche hatte z.B. ich die Notwendigkeit, mir einen älteren (Papier-) Ordner mit über 200 Seiten Skript (doppelseitig) und Präsentationsfolien (quer) neu wiedererschließen zu müssen. Mit meinem Scanner war das in weniger als 15 Minuten erledigt, inklusive OCR und alle Seiten in der richtigen Ausrichtung.

Wie Herbert habe ich damals länger gezögert, ob sich das Geld für so ein Gerät lohnt. Nach einigen Jahren, wenn nicht gar Jahrzehnten Papier-Jäger-und-Sammlertum und auf dem Weg zum papierärmeren Büro, also vielen Stapeln und Ordnern, die ich gern loswerden und in andere Form überführen wollte, habe ich mich dann doch schnell dazu durchringen können. Dieses Projekt sollte durch eine möglichst performante "Rutschbahn" in digitale Zeiten erleichtert werden. Und bis heute habe ich noch keinen Euro bereut, sondern freue mich über die Stabilität und Zuverlässigkeit des Teils und über jedes Blatt, dass es "frisst".

Was mir die Diskussion auch zeigt, ist die wichtige Frage danach, was wir wir für welche Zwecke scannen. Richtig ist, dass man bei den meisten kleinen Scans, Rechnungen, Belege, Anleitungen, Briefe usw. für das Archiv nicht so auf den Text, sondern häufig nur auf eine schnelle (Wieder-) Auffindbarkeit ankommt. Das geht meist gut und schnell und inzwischen auch ich erstaunlich hoher Qualität und Komfortabilität gut mit App und Handy. Ein Teil meines Aufwandes ist da sicher gut verzichtbar (Ich werde mal an meinen Routinen arbeiten und mich in der Regel wohl mehr auf das Direktscannen mit OCR zu Evernote einlassen...)

Wollen oder müssen wir später aber noch einmal detaillierter auf die Texte zugreifen, kann mehr Aufwand sinnvoll sein. Mit meinem oben beschriebenen Setting - ohne mobile Scan-Lösung, aber performanter Arbeitsumgebung zuhause - nehme und gebe ich mir dort mehr Zeit, wo mir die Inhalte für laufende oder kommende Aufgaben, Fragen oder Recherchen wichtig sind. Da will ich dann möglichst kein zweites Mal dran arbeiten müssen, manchmal ziehe ich dabei auch gleich einzelne Text-Exzerpte.

Noch ein Aspekt bei mir sind damit vielleicht gelegentlich vorgezogene Textarbeitsphasen. Bei dem Ordner letzte Woche habe ich noch ca. 10-20 Minuten Struktursichtung angehängt und in meiner PDF-Bearbeitungsumgebung schnell Lesezeichen für die wichtigsten Stellen/Überschriften ergänzt und in Form eine groben Inhaltsverzeichnisses gebracht. Das hat mir vermutlich ein Vielfaches an Zeit bei der späteren Verwertung und Detailarbeit erspart - ist aber sicher nicht Standard und bildet auch nicht das ab, was hier eigentlich an Praxis gefragt war.

Zwei andere Aspekte sind mir nun auch noch eingefallen.

So gut die Camera Scan Apps auch sind, darf man doch nicht vergessen, dass die eigenen Daten dafür durch das Netz und dutch fremde Hände bzw. Technik gehen müssen. Dem muss man vertrauen wollen und können.

Für das Scannen zu Evernote gilt z. T. Ähnliches. Ich habe da zwar keine Sorgen. Trotzdem landet bei mir vieles in einem Zentralordner Lokal bevor ich entscheide, dass uns wo es in die cloud geht. Da gibt es einiges, was ich nicht ständig und überall brauche. Und anderes wäre mir (unverschlüsselt) nichts für Evernote.

Gesendet von meinem F5121 mit Tapatalk
Zitieren
#9

Die Anforderungen von Kunden, Familienmitgliedern und/oder Mitarbeitern spielen genauso eine wichtige Rolle wie die persönlichen Notwendigkeiten, Ansprüche und Bedürfnisse. Nicht zu vergessen die Menge an Druckerzeugnissen, die einfach digitalisiert werden müssen. 
Ein Gerät wie der iX500 wirkt da fast schon Wunder. Ob mein BPA, Fahrzeugscheine, Grundrisse oder ein 30-seitiger Mietvertrag: Evernote würde ich ohne dieses Teil längst nicht so intensiv nutzen.
Evernote nutze ich privat und in meinen Firmen als Archiv und für das Wissensmanagement (nicht für Projekte, habe ich versucht, taugt meiner Erfahrung nach nichts). Dabei spielt die Mobilität eine große Rolle. Bevor meine Mitarbeiter im Vertrieb diverse Kataloge mitschleppen, nehmen sie einfach ein iPad mit. Auch Arbeitsanweisungen oder technische Informationen wie Datenblätter sind hier enthalten.
Mittlerweile spielt dann auch noch die iOS-App PDF Expert eine wichtige Rolle. Mobilfunk- und andere Verträge und selbst meine Steuererklärung unterschreibe ich hierüber am iPad und lege das Dokument gleich in Evernote ab. Ich leiste mir dann auch mal eine Nachlässigkeit und packe neue Notizen erstmal in die Inbox, wenn ich keine Zeit habe. Ich finde es ja doch sofort wieder.
Nächste Stufe: Ich werde demnächst einem bestimmten Kundenkreis die mittlerweile über 100 Preislisten via Evernote zur Verfügung stellen. Warum nicht Dopbox o.ä.? Nun, erstens will ich mich nicht verzetteln, zweitens kann man in einer Evernote-Notiz auch mehrere Dateien ablegen und ggf. gleich noch kommentieren. Dazu kommt der Nutzwert der Verschlagwortung. Und das Wichtigste: Wenn ich bei Schulungen vorführe, dass ich selbst ausgefallene Produktnamen (da hätten wir z.B. Kushi, Morning Glory oder Ameluna), die nun wirklich nicht in der Notizüberschrift oder im Dateinamen enthalten sind, quasi in Sekundenbruchteilen finde, ist das Staunen groß. Da ist die OCR-Funktion von Evernote bzw. vorher von iX500 einfach großartig. Und ich bearbeite nichts nach.
Zitieren
#10

(24.02.2019, 21:24)HenningBo schrieb:  Zwei andere Aspekte sind mir nun auch noch eingefallen.

So gut die Camera Scan Apps auch sind, darf man doch nicht vergessen, dass die eigenen Daten dafür durch das Netz und dutch fremde Hände bzw. Technik gehen müssen. Dem muss man vertrauen wollen und können.

Nur als kleine Anmerkung: Bei Scanner Pro von Readdle geschieht die Texterkennung offline auf dem Gerät.
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste