Merge branch 'main' into vllm_health_check

2025-12-20 05:28:41 +00:00 · 2025-06-05 18:09:36 +05:30 · 2025-06-05 18:09:36 +05:30 · c18b585d32
commit c18b585d32
parent 44401f0a88 ef885d2147
143 changed files with 9210 additions and 5347 deletions
--- a/llama_stack/providers/remote/inference/fireworks/fireworks.py
+++ b/llama_stack/providers/remote/inference/fireworks/fireworks.py
@ -255,7 +255,7 @@ class FireworksInferenceAdapter(ModelRegistryHelper, Inference, NeedsRequestProv
        params = {
            "model": request.model,
            **input_dict,
-            "stream": request.stream,
+            "stream": bool(request.stream),
            **self._build_options(request.sampling_params, request.response_format, request.logprobs),
        }
        logger.debug(f"params to fireworks: {params}")
--- a/llama_stack/providers/remote/inference/ollama/models.py
+++ b/llama_stack/providers/remote/inference/ollama/models.py
@ -12,7 +12,7 @@ from llama_stack.providers.utils.inference.model_registry import (
    build_model_entry,
 )

-model_entries = [
+MODEL_ENTRIES = [
    build_hf_repo_model_entry(
        "llama3.1:8b-instruct-fp16",
        CoreModelId.llama3_1_8b_instruct.value,
--- a/llama_stack/providers/remote/inference/ollama/ollama.py
+++ b/llama_stack/providers/remote/inference/ollama/ollama.py
@ -5,6 +5,7 @@
 # the root directory of this source tree.


+import uuid
 from collections.abc import AsyncGenerator, AsyncIterator
 from typing import Any

@ -77,7 +78,7 @@ from llama_stack.providers.utils.inference.prompt_adapter import (
    request_has_media,
 )

-from .models import model_entries
+from .models import MODEL_ENTRIES

 logger = get_logger(name=__name__, category="inference")

@ -87,7 +88,7 @@ class OllamaInferenceAdapter(
    ModelsProtocolPrivate,
 ):
    def __init__(self, url: str) -> None:
-        self.register_helper = ModelRegistryHelper(model_entries)
+        self.register_helper = ModelRegistryHelper(MODEL_ENTRIES)
        self.url = url

    @property
@ -480,7 +481,25 @@ class OllamaInferenceAdapter(
            top_p=top_p,
            user=user,
        )
-        return await self.openai_client.chat.completions.create(**params)  # type: ignore
+        response = await self.openai_client.chat.completions.create(**params)
+        return await self._adjust_ollama_chat_completion_response_ids(response)
+
+    async def _adjust_ollama_chat_completion_response_ids(
+        self,
+        response: OpenAIChatCompletion | AsyncIterator[OpenAIChatCompletionChunk],
+    ) -> OpenAIChatCompletion | AsyncIterator[OpenAIChatCompletionChunk]:
+        id = f"chatcmpl-{uuid.uuid4()}"
+        if isinstance(response, AsyncIterator):
+
+            async def stream_with_chunk_ids() -> AsyncIterator[OpenAIChatCompletionChunk]:
+                async for chunk in response:
+                    chunk.id = id
+                    yield chunk
+
+            return stream_with_chunk_ids()
+        else:
+            response.id = id
+            return response

    async def batch_completion(
        self,