models routing work

2025-10-05 12:21:52 +00:00 · 2024-09-19 08:48:10 -07:00 · 2024-09-19 08:48:10 -07:00 · 9bdd4e3dd9
commit 9bdd4e3dd9
parent f3ff3a3001
3 changed files with 20 additions and 3 deletions
--- a/llama_stack/providers/adapters/inference/ollama/ollama.py
+++ b/llama_stack/providers/adapters/inference/ollama/ollama.py
@ -98,7 +98,13 @@ class OllamaInferenceAdapter(Inference):
        stream: Optional[bool] = False,
        logprobs: Optional[LogProbConfig] = None,
    ) -> AsyncGenerator:
-        cprint("!! calling remote ollama !!", "red")
+        cprint("!! calling remote ollama {}, url={}!!".format(model, self.url), "red")
+        yield ChatCompletionResponseStreamChunk(
+            event=ChatCompletionResponseEvent(
+                event_type=ChatCompletionResponseEventType.start,
+                delta="",
+            )
+        )
        # request = ChatCompletionRequest(
        #     model=model,
        #     messages=messages,