second try

2025-10-24 00:47:00 +00:00 · 2025-07-30 14:51:43 -07:00 · 2025-07-30 14:51:43 -07:00 · 1cb9d3bca2
commit 1cb9d3bca2
parent 31a15332c4
11 changed files with 237 additions and 64 deletions
--- a/docs/source/distributions/k8s/stack_run_config.yaml
+++ b/docs/source/distributions/k8s/stack_run_config.yaml
@ -16,13 +16,12 @@ providers:
      max_tokens: ${env.VLLM_MAX_TOKENS:=4096}
      api_token: ${env.VLLM_API_TOKEN:=fake}
      tls_verify: ${env.VLLM_TLS_VERIFY:=true}
-  - provider_id: vllm-safety
-    provider_type: remote::vllm
+  - provider_id: nvidia
+    provider_type: remote::nvidia
    config:
-      url: ${env.VLLM_SAFETY_URL:=http://localhost:8000/v1}
-      max_tokens: ${env.VLLM_MAX_TOKENS:=4096}
-      api_token: ${env.VLLM_API_TOKEN:=fake}
-      tls_verify: ${env.VLLM_TLS_VERIFY:=true}
+      url: ${env.NVIDIA_BASE_URL:=http://localhost:8001/v1}
+      api_key: ${env.NVIDIA_API_KEY:=}
+      append_api_version: ${env.NVIDIA_APPEND_API_VERSION:=True}
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
@ -103,11 +102,9 @@ models:
  provider_id: vllm-inference
  model_type: llm
 - metadata: {}
-  model_id: ${env.SAFETY_MODEL:=meta-llama/Llama-Guard-3-1B}
-  provider_id: vllm-safety
+  model_id: ${env.CODE_MODEL:=bigcode/starcoder2-7b}
+  provider_id: nvidia
  model_type: llm
-shields:
- shield_id: ${env.SAFETY_MODEL:=meta-llama/Llama-Guard-3-1B}
 vector_dbs: []
 datasets: []
 scoring_fns: []