Wir empfehlen grundsätzlich folgenden Ablauf.
Das AI Modell muss zur Aufgabe passen (z.B. Handschrift OCR, Tools Support, Reasoning etc.), die passende Performance haben (Durchsatz) bei entsprechender Qualität (Richtigkeit, Vollständigkeit).
Die Hardware sollte genug "Raum" für die verwendeten AI Models sowie den gewünschten Durchsatz (Seiten/Strunde) bieten.
Je nach Datenschutz-Anforderungen und Auslastung sollten Sie die Risiken/Limitierungen/Vorteile/Nachteile des jeweiligen Deployments berücksichtigen.
Das primäre Limit/Flaschenhals ist i.d.R. das VRAM und die Leistung bzw. Durchsatz.
Dr.DOC Web kann mit einem AI Ollama Entpoint kommunizieren und ist flexibel. Daher kann der Endpoint auf der gleichen Maschine, im gleichen Netzwerk/andere Maschine oder im RZ stehen.
Limits:
Betriebssystem:
Werden auf der Maschine primär AI Aufgaben ausgeführt, sollten Sie das gewählte Betriebssystem vom Treiber-Support der GPU abhängig machen. Auf die Frage, "Linux oder Windows", empfehlen wir, die verfügbaren Treiber für Ihre GPU je OS zu prüfen z.B. in puncto Stabilität, Performance und aktivem Treiber Support. Auch sollte berücksichtigt werden, welches Betribssystem/Distro für Ihre IT-Abteilung/IT-Systemhaus im Betrieb einfacher zu warten ist.
Achten Sie zwingend auf ECC (Error Correcting Code)
Empfehlungen:
Beispiele je nach Workload:
GPU im Rechenzentrum mieten.
Vorteile: Sinnvoll bei sehr geringer Jahres-Auslastung aber hoher, zeitlich planbarer Peak-Auslastung. Zeitliche Planung notwending wg. Model Loading in Speicher; hohe variable Kosten, keine Fixkosten
Nachteile: bei durchgängiger Buchung: hohe Fixkosten
Bezahlung pro Input-/Output Token.
Risiken: Datenschutz: Sollte bei hohen Datenschutzanforderungen vermieden werden.
Vorteile: keine Fixkosten, nur variable Kosten
Nachteile: Datenschutz hoch problematisch, da strukturierte, personenbezogene oder Sicherheits-/IP-relevante Informationen übertragen werden.
siehe Implementierung Entwicklungs- und Testsystem -> Planung/Aufbau Entwicklungs-System (Evaluation).
Anleitung Ollama Installation in Windown und Linux:
https://drdoc.com/node/de/products/web/doku/ai-kuenstliche-intelligenz/installation
Hinweis Um den Aufwand zu minimieren, kann in einfachen Umgebungen, Entwicklung und Test initial zusammengefasst werden.
Langfristig empfehlen wir jedoch die Etablierung eines iterativen Optimierungsprozesses in einer strukturierten Umgebung:
Entwicklungs-System mit einer Miet-GPU im RZ aufzubauen, um erste Erfahrungen zu sammeln.
OLLAMA_CONTEXT_LENGTH in Env. Var. oder num_ctx im ModelfileAI_MaxPagesCount / AI max. SeitenzahlFeedback Loop / iterieren: Entwicklung-/Testsystem optimieren
Übernahme funktionierender Stände aus der Entwicklung.
Test as you fly, fly as you test
| Anforderung | Bewertung | Aktionen |
|---|---|---|
| Stapelverarbeitung | MUSS | -> Stapelverarbeitung durch automatische IMAP E-Mail-Archivierung und magischer Archivierung in Dr.DOC Web |
| AI Klassifizierung | MUSS | -> Magische Archivierung in Dr.DOC Web aktivieren |
| AI Verschlagwortung | MUSS | -> entsprechende Document Encoder in Dr.DOC Web aktivieren/erweitern/anpassen |
| AI MCP / Tools Support | / | (würde AI Modell mit Tools-Support erfordern) |
| AI Vision / Handschrift OCR | / | (würde AI Modell mit Vision-Support erfordern) |
| 1 bis 2-Seiteige Dok. | MUSS | -> Dr.DOC Optimierung: Für einige Gesachäftsfälle nur die ersten 2 Seiten verarbeiten |
| 20-Seiteige Dok. | KANN | -> AI Model Context-Length auf 32k bis 64k anheben + testen |
| 100-Seiteige Dok. | / | (Viele Seiten erfordern größere Context Length und damit auch größeres VRAM) |
| Verarbeitung Dok.: von personenbezogene Daten | 20% | -> Lokales Deployment |
| Verarbeitung Dok.: kritisches Know How/Rezepte etc. | 20% | -> Lokales Deployment |
| Verarbeitung Dok.: Rest | 60% | -> Make or buy Analyse durchführen; evtl. je nach Menge für diese Geschäftsfälle einen extenen Ollama Endpoint wählen |
| Anforderung | Bewertung | Aktionen |
|---|---|---|
| AI Prompt mit Logik | MUSS | -> Qualität wichtiger als Performance -> AI Reasoning Modelle wählen, z.B. qwen3 -> AI Modelle testen und vergleichen anhand von Test-Validierungs-Dok. |
| Anforderung | Bewertung | Aktionen |
|---|---|---|
| Anzahl Seiten pro Tag Median | MUSS 1000 Seiten / Tag | |
| Anzahl Seiten pro Tag Peak | SOLL 500 Seiten in 1h | -> Hardware: bei 500 Seiten in einer Stunde am Morgen wären das ~14 Sek./Seite -> Hardware: Performance unterschiedlicher GPUs im RZ testen. -> Hardware wählen: z.B. RTX 5090 |
Anforderung definieren, z.B.:
500 Seiten in einer Stunde bzw. max. Verarbeitungsdauer von 14 Sek./Seite, bei 100% Qualität und Vollständigkeit, bei lokaler Verarbeitung, von Rechnungen, [...] anhand der Validierungs-Dateien [...].
| HW GPU |
AI Modell |
AI Mode |
AI Quantisation |
AI Context Length |
Input Datei |
Input Anzahl Seiten |
Output Dauer [s] |
Output Dauer / Seite |
Output Richtigkeit |
Output Vollständigkeit |
|---|---|---|---|---|---|---|---|---|---|---|
| RTX 5090 | qwen3:14b | chat | Q4_K_M | 16k | Test.pdf | 2 | 10 | 5 | 100% | 100% |
| gemma3 |