Beispielhafte Hardware-Anforderungen für den lokalen Modellbetrieb
Wenn Behörden-KlarText mit einem lokal betriebenen Sprachmodell (z. B. Ollama, vLLM oder vergleichbare Model-Server) ausgeführt wird, müssen ausreichende Hardware-Ressourcen bereitgestellt werden.
Die folgenden Werte basieren auf einem Referenz-Setup mit gemma 3:27b, das mit einer FP8 Quantisierung mit vllm deployed wird.
Modellparameter
- Modell: gemma 3:27b
- Maximale Kontextlänge: 8192 Token (ausreichend für Prompt, Systemprompt, geschützte Begriffe, Antwort und Puffer)
Ressourcenbedarf
- GPU: 47 GB VRAM
- CPU: mindestens 2 Kerne, empfohlen bis 5 Kerne
- RAM: mindestens 35 GB, empfohlen bis 70 GB → sollte mindestens der Modellgröße entsprechen
Leistungsprofil des Referenz-Setups
- ca. 300 Token/s Gesamtdurchsatz (abhängig von der Deployment-Konfiguration und der zugrundeliegenden Hardware)
- ausgelegt für ca. 10 gleichzeitige Anfragen
Geeignete GPU-Typen (Beispiele)
- NVIDIA H100
- NVIDIA L40 / L40S
- vergleichbare GPUs mit ≥ 47 GB VRAM
Einsparpotenziale
- GPU- und RAM-Bedarf sind modellabhängig und nur begrenzt reduzierbar.
- Reduktion möglich durch:
- kleinere oder stärker quantisierte Modelle
- geringere Kontextlänge durch Reduktion der maximalen Promptlänge
- geringere Parallelität
- leistungsschwächere GPU