refine

2026-01-03 20:52:14 +00:00 · 2025-03-11 20:41:11 -07:00 · 2025-03-11 20:41:11 -07:00 · 3ca640be7f
commit 3ca640be7f
parent cb42e1d9d4
3 changed files with 7 additions and 16 deletions
--- a/llama_stack/providers/inline/agents/meta_reference/agent_instance.py
+++ b/llama_stack/providers/inline/agents/meta_reference/agent_instance.py
@ -545,7 +545,6 @@ class ChatAgent(ShieldRunnerMixin):
                            )

                    elif delta.type == "text":
-                        # delta.text = "hello"
                        content += delta.text
                        if stream and event.stop_reason is None:
                            yield AgentTurnResponseStreamChunk(
--- a/llama_stack/providers/remote/inference/passthrough/passthrough.py
+++ b/llama_stack/providers/remote/inference/passthrough/passthrough.py
@ -94,7 +94,7 @@ class PassthroughInferenceAdapter(Inference):
        client = self._get_client()
        model = await self.model_store.get_model(model_id)

-        params = {
+        request_params = {
            "model_id": model.provider_resource_id,
            "content": content,
            "sampling_params": sampling_params,
@ -103,10 +103,13 @@ class PassthroughInferenceAdapter(Inference):
            "logprobs": logprobs,
        }

-        params = {key: value for key, value in params.items() if value is not None}
+        request_params = {key: value for key, value in request_params.items() if value is not None}
+
+        # cast everything to json dict
+        json_params = self.cast_value_to_json_dict(request_params)

        # only pass through the not None params
-        return await client.inference.completion(**params)
+        return await client.inference.completion(**json_params)

    async def chat_completion(
        self,
--- a/llama_stack/templates/passthrough/run.yaml
+++ b/llama_stack/templates/passthrough/run.yaml
@ -20,13 +20,6 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  - provider_id: meta-reference-inference
-    provider_type: inline::meta-reference
-    config:
-      model: meta-llama/Llama-Guard-3-1B
-      max_seq_len: 4096
-      checkpoint_dir: ${env.INFERENCE_CHECKPOINT_DIR:null}
-      # api_key: ${env.TOGETHER_API_KEY}
  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
@ -110,12 +103,8 @@ models:
  provider_id: passthrough
  provider_model_id: llama3.2-11b-vision-instruct
  model_type: llm
- metadata: {}
-  model_id: meta-llama/Llama-Guard-3-1B
-  provider_id: meta-reference-inference
-  model_type: llm
 shields:
- shield_id: meta-llama/Llama-Guard-3-1B
+- shield_id: meta-llama/Llama-Guard-3-8B
 vector_dbs: []
 datasets: []
 scoring_fns: []