- Ablauf
- Optimierungen
2.1. OCR über GPU und AI
2.2. PDF Text in den Profildaten deaktivieren
- OCR ausführen
- Zum Testen, OCR Ergebnis prüfen
- Suche im OCR Text von Dokumenten
5.1. Im Dr.DOC Web
5.2. Im Dr.DOC Netzwerk Client (Native)
In Dr.DOC Web können Sie die OCR Texterkennung nachträglich ausführen (Dokument Text indexieren). Dadurch wird das Dokument für alle berechtigten Benutzer durchsuchbar (Volltextsuche).
1. Ablauf
- Planen:
- Zeitlich einplanen, wg. Dauer (z.B. auf das Wochenende bzw. Freitag Abend warten), da ein Dokumentenseite ca. 1 Sek. Verarbeitungsdauer für die OCR hat. Das entspricht ca. 86.400 Seiten OCR pro Tag, je nach Hardware.
- Bereich / Batches: Planen Sie Suchbereiche. Die OCR sollte für sinnvolle Bereiche gesetzt werden (z.B. Feldsuche nach
01.01.2014<->31.12.2014)
- Dr.DOC Netzwerk Server beenden, damit User keinen zu bearbeitenden Datensatz sperren
- Backup durchführen, falls die OCR nicht passt oder die Festplatte stirbt
- Alle Datensätze im Archiv entsperren: Archiv -> Reogranisation -> Datensatzsperre freigeben
- Im Dr.DOC Web:
- Dr.DOC Web Service/Dienst starten
- Als User mit allen nötigen Rechten anmelden (z.B. PUBLIC)
- Test: im ersten Durchgang sollte ein sehr kleiner Bereich gewählt werden, um die Dauer für weitere Durchgänge einzuplanen, sowie um die OCR Qualität zu prüfen
- Suche für Test-Bereich ausführen (z.B. Feldsuche nach
01.01.2014<->02.01.2014)
- OCR ausführen: "OCR für PDFs und TIFFs" (siehe Bild)
- OCR Ergebnis prüfen (siehe Bild)
- Im Produktivsystem, je Suchbereich:
- Suche im Bereich ausführen (z.B. Feldsuche nach
01.01.2014<->31.12.2014)
- OCR ausführen: "OCR für PDFs und TIFFs" (siehe Bild)
- OCR Ergebnis prüfen
2. Optimierungen
2.1. OCR über GPU und AI
Die OCR kann optional über ein KI/AI Vision Modell über die GPU ausgeführt werden. Bitte testen Sie vor dem großen Durchlauf im Echtsystem Ihre Konfiguration.
Konfigurieren Sie dafür den Document Encoder config/recursive/DEFAULT_AI_OCR:
- AI_Enabled: true
- AI_Endpoint: Ihr AI Server
- AI_Model: Ihr AI Model, z.B.
gemma3:12b
- Selector_Filename:
*.pdf|*.tif|*.tiff
2.2. PDF Text in den Profildaten deaktivieren
In der Archivspezifischen INI im Formverzeichnis kann der OCR Text in die Metainfo/Profildaten geladen werden. Hier diesem Beispiel in das Feld ocr_text im Archiv doc.
Zur Optimierung der Suchperformance und OCR Performance, sollte für viele Seiten Pro Dokument (ab ca. 10 Seiten) oder vielen Datensätzen (ab ca. 350.000), der PDF Text in den Profildaten deaktiviert werden, da der OCR Text in den Profildaten die normale Feldsuche verlangsamt.
<Basisverzeichnis>\FORM\<Archiv-Name>.ini, z.B. D:\ARCHIV\FORM\doc.ini
[PDF_TEXT]
Fieldname=ocr_text
3. OCR ausführen
Im Dr.DOC Web suchen, und anschließend "OCR für PDFs und TIFFs" klicken.

4. Zum Testen, OCR Ergebnis prüfen
Im Dr.DOC Netzwerk Client (Windows App) kann man den OCR Text anstelle des Dokuments anzeigen lassen.

5. Suche im OCR Text von Dokumenten
5.1. Im Dr.DOC Web
Via Checkbox/Toggle "In Dokument-Text suchen":

5.2. Im Dr.DOC Netzwerk Client (Native)
Vie Checkbox Suchbereich / Dokumente:
