Zum Inhalt

Behörden-KlarText - KI-Anwendung für verständlichere Behördensprache

Benötigte Hardware

Behörden-KlarText Doku

Beispielhafte Hardware-Anforderungen für den lokalen Modellbetrieb

Wenn Behörden-KlarText mit einem lokal betriebenen Sprachmodell (z. B. Ollama, vLLM oder vergleichbare Model-Server) ausgeführt wird, müssen ausreichende Hardware-Ressourcen bereitgestellt werden.
Die folgenden Werte basieren auf einem Referenz-Setup mit gemma 3:27b, das mit einer FP8 Quantisierung mit vllm deployed wird.

Modellparameter

Modell: gemma 3:27b
Maximale Kontextlänge: 8192 Token (ausreichend für Prompt, Systemprompt, geschützte Begriffe, Antwort und Puffer)

Ressourcenbedarf

GPU: 47 GB VRAM
CPU: mindestens 2 Kerne, empfohlen bis 5 Kerne
RAM: mindestens 35 GB, empfohlen bis 70 GB → sollte mindestens der Modellgröße entsprechen

Leistungsprofil des Referenz-Setups

ca. 300 Token/s Gesamtdurchsatz (abhängig von der Deployment-Konfiguration und der zugrundeliegenden Hardware)
ausgelegt für ca. 10 gleichzeitige Anfragen

Geeignete GPU-Typen (Beispiele)

NVIDIA H100
NVIDIA L40 / L40S
vergleichbare GPUs mit ≥ 47 GB VRAM

Einsparpotenziale

GPU- und RAM-Bedarf sind modellabhängig und nur begrenzt reduzierbar.
Reduktion möglich durch:
- kleinere oder stärker quantisierte Modelle
- geringere Kontextlänge durch Reduktion der maximalen Promptlänge
- geringere Parallelität
- leistungsschwächere GPU