Zum Inhalt

Beispielhafte Hardware-Anforderungen für den lokalen Modellbetrieb

Wenn Behörden-KlarText mit einem lokal betriebenen Sprachmodell (z. B. Ollama, vLLM oder vergleichbare Model-Server) ausgeführt wird, müssen ausreichende Hardware-Ressourcen bereitgestellt werden.
Die folgenden Werte basieren auf einem Referenz-Setup mit gemma 3:27b, das mit einer FP8 Quantisierung mit vllm deployed wird.

Modellparameter

  • Modell: gemma 3:27b
  • Maximale Kontextlänge: 8192 Token (ausreichend für Prompt, Systemprompt, geschützte Begriffe, Antwort und Puffer)

Ressourcenbedarf

  • GPU: 47 GB VRAM
  • CPU: mindestens 2 Kerne, empfohlen bis 5 Kerne
  • RAM: mindestens 35 GB, empfohlen bis 70 GB → sollte mindestens der Modellgröße entsprechen

Leistungsprofil des Referenz-Setups

  • ca. 300 Token/s Gesamtdurchsatz (abhängig von der Deployment-Konfiguration und der zugrundeliegenden Hardware)
  • ausgelegt für ca. 10 gleichzeitige Anfragen

Geeignete GPU-Typen (Beispiele)

  • NVIDIA H100
  • NVIDIA L40 / L40S
  • vergleichbare GPUs mit ≥ 47 GB VRAM

Einsparpotenziale

  • GPU- und RAM-Bedarf sind modellabhängig und nur begrenzt reduzierbar.
  • Reduktion möglich durch:
    • kleinere oder stärker quantisierte Modelle
    • geringere Kontextlänge durch Reduktion der maximalen Promptlänge
    • geringere Parallelität
    • leistungsschwächere GPU