first draft

2025-10-24 00:47:00 +00:00 · 2025-07-25 10:41:06 -07:00 · 2025-07-25 10:41:06 -07:00 · e614241876
commit e614241876
parent 025163d8e6
9 changed files with 64 additions and 60 deletions
--- a/docs/source/distributions/k8s/vllm-safety-k8s.yaml.template
+++ b/docs/source/distributions/k8s/vllm-safety-k8s.yaml.template
@ -25,14 +25,12 @@ spec:
        app.kubernetes.io/name: vllm-safety
        workload-type: inference
    spec:
-      nodeSelector:
-        eks.amazonaws.com/nodegroup: gpu
      containers:
      - name: vllm-safety
        image: vllm/vllm-openai:latest
        command: ["/bin/sh", "-c"]
        args: [
-          "vllm serve ${SAFETY_MODEL} --dtype float16 --enforce-eager --max-model-len 4096 --port 8001 --gpu-memory-utilization 0.3"
+          "vllm serve ${SAFETY_MODEL} --dtype float16 --enforce-eager --max-model-len 4096 --port 8001 --gpu-memory-utilization 0.6"
        ]
        env:
        - name: SAFETY_MODEL