OCR Texterkennung nachträglich ausführen

Informationen effizient organisieren.
Mit Dr.DOC - der Komplettlösung für revisionssichere Archivierung.



  Anfragen Preise berechnen Demo anfordern Mehr über Dr.DOC erfahren


OCR Texterkennung nachträglich ausführen

  1. Ablauf
  2. Optimierungen
    2.1. OCR über GPU und AI
    2.2. PDF Text in den Profildaten deaktivieren
  3. OCR ausführen
  4. Zum Testen, OCR Ergebnis prüfen
  5. Suche im OCR Text von Dokumenten
    5.1. Im Dr.DOC Web
    5.2. Im Dr.DOC Netzwerk Client (Native)

In Dr.DOC Web können Sie die OCR Texterkennung nachträglich ausführen (Dokument Text indexieren). Dadurch wird das Dokument für alle berechtigten Benutzer durchsuchbar (Volltextsuche).

1. Ablauf

  1. Planen:
    1. Zeitlich einplanen, wg. Dauer (z.B. auf das Wochenende bzw. Freitag Abend warten), da ein Dokumentenseite ca. 1 Sek. Verarbeitungsdauer für die OCR hat. Das entspricht ca. 86.400 Seiten OCR pro Tag, je nach Hardware.
    2. Bereich / Batches: Planen Sie Suchbereiche. Die OCR sollte für sinnvolle Bereiche gesetzt werden (z.B. Feldsuche nach 01.01.2014<->31.12.2014)
  2. Dr.DOC Netzwerk Server beenden, damit User keinen zu bearbeitenden Datensatz sperren
  3. Backup durchführen, falls die OCR nicht passt oder die Festplatte stirbt
  4. Alle Datensätze im Archiv entsperren: Archiv -> Reogranisation -> Datensatzsperre freigeben
  5. Im Dr.DOC Web:
    1. Dr.DOC Web Service/Dienst starten
    2. Als User mit allen nötigen Rechten anmelden (z.B. PUBLIC)
    3. Test: im ersten Durchgang sollte ein sehr kleiner Bereich gewählt werden, um die Dauer für weitere Durchgänge einzuplanen, sowie um die OCR Qualität zu prüfen
      1. Suche für Test-Bereich ausführen (z.B. Feldsuche nach 01.01.2014<->02.01.2014)
      2. OCR ausführen: "OCR für PDFs und TIFFs" (siehe Bild)
      3. OCR Ergebnis prüfen (siehe Bild)
    4. Im Produktivsystem, je Suchbereich:
      1. Suche im Bereich ausführen (z.B. Feldsuche nach 01.01.2014<->31.12.2014)
      2. OCR ausführen: "OCR für PDFs und TIFFs" (siehe Bild)
      3. OCR Ergebnis prüfen

2. Optimierungen

2.1. OCR über GPU und AI

Die OCR kann optional über ein KI/AI Vision Modell über die GPU ausgeführt werden. Bitte testen Sie vor dem großen Durchlauf im Echtsystem Ihre Konfiguration.
Konfigurieren Sie dafür den Document Encoder config/recursive/DEFAULT_AI_OCR:

  • AI_Enabled: true
  • AI_Endpoint: Ihr AI Server
  • AI_Model: Ihr AI Model, z.B. gemma3:12b
  • Selector_Filename: *.pdf|*.tif|*.tiff

2.2. PDF Text in den Profildaten deaktivieren

In der Archivspezifischen INI im Formverzeichnis kann der OCR Text in die Metainfo/Profildaten geladen werden. Hier diesem Beispiel in das Feld ocr_text im Archiv doc.
Zur Optimierung der Suchperformance und OCR Performance, sollte für viele Seiten Pro Dokument (ab ca. 10 Seiten) oder vielen Datensätzen (ab ca. 350.000), der PDF Text in den Profildaten deaktiviert werden, da der OCR Text in den Profildaten die normale Feldsuche verlangsamt.
<Basisverzeichnis>\FORM\<Archiv-Name>.ini, z.B. D:\ARCHIV\FORM\doc.ini

[PDF_TEXT]
Fieldname=ocr_text

3. OCR ausführen

Im Dr.DOC Web suchen, und anschließend "OCR für PDFs und TIFFs" klicken.
image.png


4. Zum Testen, OCR Ergebnis prüfen

Im Dr.DOC Netzwerk Client (Windows App) kann man den OCR Text anstelle des Dokuments anzeigen lassen.

image.png

5. Suche im OCR Text von Dokumenten

5.1. Im Dr.DOC Web

Via Checkbox/Toggle "In Dokument-Text suchen":
image.png

5.2. Im Dr.DOC Netzwerk Client (Native)

Vie Checkbox Suchbereich / Dokumente:
image.png


Diese Website verwendet aus technischen Gründen Cookies für das Caching bzw. Bereitstellen von Session-bezogenen Inhalten. Diese Website verwendet Cookies und nutzt Website Tracking-Technologien von Dritten, um ihre Dienste anzubieten, stetig zu verbessern und Werbung entsprechend der Interessen der Nutzer anzuzeigen.
Ich bin mit der Datenschutzerklärung einverstanden und kann meine Einwilligung jederzeit mit Wirkung für die Zukunft widerrufen oder ändern.
Aus Gründen der Vernunft und besseren Lesbarkeit verzichten wir auf die gleichzeitige Verwendung der Sprachformen männlich und weiblich. Sämtliche Personenbezeichnungen gelten daher gleichermaßen für alle Geschlechter.