more fixes, gah

2025-12-27 21:52:00 +00:00 · 2025-06-01 17:07:18 -07:00 · 2025-06-01 17:07:18 -07:00 · 6cbb3366f2
commit 6cbb3366f2
parent 6f4f51f8d9
3 changed files with 16 additions and 1 deletions
--- a/docs/source/distributions/k8s/stack-k8s.yaml.template
+++ b/docs/source/distributions/k8s/stack-k8s.yaml.template
@ -31,6 +31,8 @@ spec:
        env:
        - name: ENABLE_CHROMADB
          value: "true"
+        - name: CHROMADB_URL
+          value: http://chromadb.default.svc.cluster.local:6000
        - name: VLLM_URL
          value: http://vllm-server.default.svc.cluster.local:8000/v1
        - name: VLLM_MAX_TOKENS
--- a/docs/source/distributions/k8s/vllm-k8s.yaml.template
+++ b/docs/source/distributions/k8s/vllm-k8s.yaml.template
@ -57,3 +57,16 @@ spec:
      - name: llama-storage
        persistentVolumeClaim:
          claimName: vllm-models
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: vllm-server
+spec:
+  selector:
+    app.kubernetes.io/name: vllm
+  ports:
+  - protocol: TCP
+    port: 8000
+    targetPort: 8000
+  type: ClusterIP
--- a/docs/source/distributions/k8s/vllm-safety-k8s.yaml.template
+++ b/docs/source/distributions/k8s/vllm-safety-k8s.yaml.template
@ -41,7 +41,7 @@ spec:
        image: vllm/vllm-openai:latest
        command: ["/bin/sh", "-c"]
        args: [
-          "vllm serve ${SAFETY_MODEL} --dtype float16 --enforce-eager --max-model-len 4096 --gpu-memory-utilization 0.3"
+          "vllm serve ${SAFETY_MODEL} --dtype float16 --enforce-eager --max-model-len 4096 --port 8001 --gpu-memory-utilization 0.3"
        ]
        env:
        - name: HUGGING_FACE_HUB_TOKEN