Informationen effizient organisieren.
Mit der Dr.DOC Komplettlösung für revisionssichere Archivierung.


  Anfragen Preise berechnen Demo anfordern Mehr über Dr.DOC erfahren


AI und Hardware Empfehlungen

  1. Anforderungen definieren
  2. Umsetzungsprozess
    2.1. AI Model wählen
    2.2. Hardware und Depolyment wählen
    2.2.1. GPU Kauf
    2.2.2. GPU Miete
    2.2.3. API/Pay per Token
    2.3. Optimieren / Iterieren
  3. Implementierung Entwicklungs- und Testsystem
    3.1. Planung/Aufbau Entwicklungs-System (Evaluation)
    3.1.1. Optimieren / Iterieren
    3.2. Implementierung Test-System (Validierung)
    3.3. Produktiv-System ausrollen (Betrieb)
  4. Beispiel
    4.1. Datenverarbeitung und Datenschutz
    4.2. Qualität - Modell wählen
    4.3. Performance - Hardware wählen
    4.4. GPU Hardware und AI Model Vergleich

Wir empfehlen grundsätzlich folgenden Ablauf.

1. Anforderungen definieren

  • Datenverarbeitung:
    • Welche Dookumentarten/Geschäftsfälle in welchen Prozessen sollen archiviert werden?
    • Klassifizierung und/oder Verschlagwortung?
    • Nur erste Seite verarbeiten?
  • Datenschutz: (-> Lokales Deployment?)
    • Was wird verarbeitet?
    • Was ist schützenswert?
  • Performance (-> Welche GPU?)
    • Durchsatz ausrechnen in Anzahl Seiten pro Tag
    • Peak Load?
  • Qualität (-> Reasoning)
  • AI Tools Support
  • AI Vision

2. Umsetzungsprozess

2.1. AI Model wählen

Das AI Modell muss zur Aufgabe passen (z.B. Handschrift OCR, Tools Support, Reasoning etc.), die passende Performance haben (Durchsatz) bei entsprechender Qualität (Richtigkeit, Vollständigkeit).

  • z.B. qwen3 vs. gemma3
  • Vision
  • Tools Support

2.2. Hardware und Depolyment wählen

Die Hardware sollte genug "Raum" für die verwendeten AI Models sowie den gewünschten Durchsatz (Seiten/Strunde) bieten.
Je nach Datenschutz-Anforderungen und Auslastung sollten Sie die Risiken/Limitierungen/Vorteile/Nachteile des jeweiligen Deployments berücksichtigen.
Das primäre Limit/Flaschenhals ist i.d.R. das VRAM und die Leistung bzw. Durchsatz.

Dr.DOC Web kann mit einem AI Ollama Entpoint kommunizieren und ist flexibel. Daher kann der Endpoint auf der gleichen Maschine, im gleichen Netzwerk/andere Maschine oder im RZ stehen.

Limits:

  • VRAM: Das Model sollte samt Output Layer ins dedizierte VRAM der GPU passen. Wenn das Modell nicht in den Videospeicher (VRAM) passt, müssen Daten in den (viel langsameren) System-RAM ausgelagert werden. Die Performance bricht dann massiv ein.
  • Speicherbandbreite: Die Geschwindigkeit, mit der der Text beim LLM KI Inferencing generiert wird (Tokens pro Sekunde), skaliert fast linear mit der Speicherbandbreite
  • Tensor Cores: Schnellere Antwortzeit bis zum ersten Token.
  • Software/Treiber-Support

Betriebssystem:
Werden auf der Maschine primär AI Aufgaben ausgeführt, sollten Sie das gewählte Betriebssystem vom Treiber-Support der GPU abhängig machen. Auf die Frage, "Linux oder Windows", empfehlen wir, die verfügbaren Treiber für Ihre GPU je OS zu prüfen z.B. in puncto Stabilität, Performance und aktivem Treiber Support. Auch sollte berücksichtigt werden, welches Betribssystem/Distro für Ihre IT-Abteilung/IT-Systemhaus im Betrieb einfacher zu warten ist.

2.2.1. GPU Kauf

Achten Sie zwingend auf ECC (Error Correcting Code)

Empfehlungen:

  • Testen Sie die Hardware zuvor, z.B. durch GPU Miete im Rechenzentrum
  • Achten Sie zwingend auf ECC (Error Correcting Code), denn Sie wollen keinen Bit Flip oder diesen zumindest erkennen
  • Achten Sie auf die Maße/Dimensionierung:
    • PCIe Plätze / Einbaugröße
  • Achten Sie auf den PCIe Standard u.a. wg. Bandbreite
  • Verfügbares VRAM je nach Wunsch-AI-Model; das Model sollte samt Output Layer ins dedizierte VRAM der GPU passen.
  • Anzahl Tensor-Cores sowie evtl. Anzahl CUDA/Stream Processors-Recheneinheiten
  • KI-TOPS
  • Energieverbrauch wg. Netzteil und Kosten
  • Schnelle SSD für schnelles Modell Laden
  • evtl. MIG Support

Beispiele je nach Workload:

  • RTX 5070 Ti; ca. 13 Sek./Seite (inkl. 17k Token Kontext, Reasoning, magische Archivierung in Dr.DOC Web: AI Klassifizierung, AI Verschlagwortung, Archivierung)
  • RTX 5090; ca. 8 Sek./Seite
  • RTX PRO 6000
2.2.2. GPU Miete

GPU im Rechenzentrum mieten.
Vorteile: Sinnvoll bei sehr geringer Jahres-Auslastung aber hoher, zeitlich planbarer Peak-Auslastung. Zeitliche Planung notwending wg. Model Loading in Speicher; hohe variable Kosten, keine Fixkosten
Nachteile: bei durchgängiger Buchung: hohe Fixkosten

2.2.3. API/Pay per Token

Bezahlung pro Input-/Output Token.
Risiken: Datenschutz: Sollte bei hohen Datenschutzanforderungen vermieden werden.
Vorteile: keine Fixkosten, nur variable Kosten
Nachteile: Datenschutz hoch problematisch, da strukturierte, personenbezogene oder Sicherheits-/IP-relevante Informationen übertragen werden.

2.3. Optimieren / Iterieren

siehe Implementierung Entwicklungs- und Testsystem -> Planung/Aufbau Entwicklungs-System (Evaluation).

3. Implementierung Entwicklungs- und Testsystem

Anleitung Ollama Installation in Windown und Linux:
https://drdoc.com/node/de/products/web/doku/ai-kuenstliche-intelligenz/installation

Hinweis Um den Aufwand zu minimieren, kann in einfachen Umgebungen, Entwicklung und Test initial zusammengefasst werden.

Langfristig empfehlen wir jedoch die Etablierung eines iterativen Optimierungsprozesses in einer strukturierten Umgebung:

3.1. Planung/Aufbau Entwicklungs-System (Evaluation)

Entwicklungs-System mit einer Miet-GPU im RZ aufzubauen, um erste Erfahrungen zu sammeln.

  • Scope: Definition der Aufgaben und Auswahl des passenden AI-Modells.
    • Welche Aufgaben sollen erledigt werden?
  • Sizing: Ermittlung der Hardware-Anforderungen basierend auf der erwarteten Last (Durchsatz).
    • Welches AI Modell passt zu uns und den Aufgaben?
    • Welche Hardware benötigen wir für das AI Model und die zu erwartende Last (Durchsatz bzw. Seiten/Stunde)?
  • Analyse: Umgebung zur Untersuchung von Fehlern aus Prod/Test. Einsatz von Standard-Test-Cases, zur Optimierung der Performance/Qualität (siehe Optimierung).
3.1.1. Optimieren / Iterieren
  • Context Length: Je nach Problem/Fragestellung ist es sehr hilfreich, die Context-Länge (in Einheit Tokens, nicht Zeichen) an Ihre konkrete Fragestellung anzupassen.
    z.B. mit OLLAMA_CONTEXT_LENGTH in Env. Var. oder num_ctx im Modelfile
    Ca. 0,4 bis 0,25 Tokens pro Zeichen. Einen guten Überglick gibt: https://platform.openai.com/tokenizer
  • Quantisation
  • Anzahl zu ladender Seiten bei KI Verarbeitung in Dr.DOC Web durch AI_MaxPagesCount / AI max. Seitenzahl
  • Rekursive Document Encoder in Dr.DOC Web anpassen an den spezifischen Geschäftsfall
  • System Prompt oder eigener Modelfile
  • Mehr auf Anfrage..

Feedback Loop / iterieren: Entwicklung-/Testsystem optimieren

3.2. Implementierung Test-System (Validierung)

Übernahme funktionierender Stände aus der Entwicklung.

Test as you fly, fly as you test

  • Versionierung: Sicherung vor jeder Änderung (Snapshots).
  • Doku: Klare Protokollierung aller Anpassungen.
  • Testing: Einsatz von Standard-Test-Cases und Real-Tests, zur Validierung der ordnungsgemäßen Funktionsweise.

3.3. Produktiv-System ausrollen (Betrieb)

  • Rollout: Übertragung ausschließlich getesteter Änderungen aus dem Testsystem.
  • Integrität: Strukturierte Übernahme inkl. Dokumentation und Versionierung (für Rollback).

4. Beispiel

4.1. Datenverarbeitung und Datenschutz

Anforderung Bewertung Aktionen
Stapelverarbeitung MUSS -> Stapelverarbeitung durch automatische IMAP E-Mail-Archivierung und magischer Archivierung in Dr.DOC Web
AI Klassifizierung MUSS -> Magische Archivierung in Dr.DOC Web aktivieren
AI Verschlagwortung MUSS -> entsprechende Document Encoder in Dr.DOC Web aktivieren/erweitern/anpassen
AI MCP / Tools Support / (würde AI Modell mit Tools-Support erfordern)
AI Vision / Handschrift OCR / (würde AI Modell mit Vision-Support erfordern)
1 bis 2-Seiteige Dok. MUSS -> Dr.DOC Optimierung: Für einige Gesachäftsfälle nur die ersten 2 Seiten verarbeiten
20-Seiteige Dok. KANN -> AI Model Context-Length auf 32k bis 64k anheben + testen
100-Seiteige Dok. / (Viele Seiten erfordern größere Context Length und damit auch größeres VRAM)
Verarbeitung Dok.: von personenbezogene Daten 20% -> Lokales Deployment
Verarbeitung Dok.: kritisches Know How/Rezepte etc. 20% -> Lokales Deployment
Verarbeitung Dok.: Rest 60% -> Make or buy Analyse durchführen; evtl. je nach Menge für diese Geschäftsfälle einen extenen Ollama Endpoint wählen

4.2. Qualität - Modell wählen

Anforderung Bewertung Aktionen
AI Prompt mit Logik MUSS -> Qualität wichtiger als Performance
-> AI Reasoning Modelle wählen, z.B. qwen3
-> AI Modelle testen und vergleichen anhand von Test-Validierungs-Dok.

4.3. Performance - Hardware wählen

Anforderung Bewertung Aktionen
Anzahl Seiten pro Tag Median MUSS 1000 Seiten / Tag
Anzahl Seiten pro Tag Peak SOLL 500 Seiten in 1h -> Hardware: bei 500 Seiten in einer Stunde am Morgen wären das ~14 Sek./Seite
-> Hardware: Performance unterschiedlicher GPUs im RZ testen.
-> Hardware wählen: z.B. RTX 5090

4.4. GPU Hardware und AI Model Vergleich

Anforderung definieren, z.B.:
500 Seiten in einer Stunde bzw. max. Verarbeitungsdauer von 14 Sek./Seite, bei 100% Qualität und Vollständigkeit, bei lokaler Verarbeitung, von Rechnungen, [...] anhand der Validierungs-Dateien [...].

HW
GPU
AI
Modell
AI
Mode
AI
Quantisation
AI
Context Length
Input
Datei
Input
Anzahl Seiten
Output
Dauer [s]
Output
Dauer / Seite
Output
Richtigkeit
Output
Vollständigkeit
RTX 5090 qwen3:14b chat Q4_K_M 16k Test.pdf 2 10 5 100% 100%
gemma3

Diese Website verwendet aus technischen Gründen Cookies für das Caching bzw. Bereitstellen von Session-bezogenen Inhalten. Diese Website verwendet Cookies und nutzt Website Tracking-Technologien von Dritten, um ihre Dienste anzubieten, stetig zu verbessern und Werbung entsprechend der Interessen der Nutzer anzuzeigen.
Ich bin mit der Datenschutzerklärung einverstanden und kann meine Einwilligung jederzeit mit Wirkung für die Zukunft widerrufen oder ändern.
Aus Gründen der Vernunft und besseren Lesbarkeit verzichten wir auf die gleichzeitige Verwendung der Sprachformen männlich und weiblich. Sämtliche Personenbezeichnungen gelten daher gleichermaßen für alle Geschlechter.