Merge remote-tracking branch 'origin/main' into resp_branching

2025-12-10 03:30:58 +00:00 · 2025-10-01 21:13:12 -07:00 · 2025-10-01 21:13:12 -07:00 · 1536ae0333
commit 1536ae0333
parent 19d25fc3f7 267f658968
144 changed files with 62682 additions and 51560 deletions
--- a/llama_stack/providers/remote/inference/bedrock/bedrock.py
+++ b/llama_stack/providers/remote/inference/bedrock/bedrock.py
@ -6,12 +6,10 @@

 import json
 from collections.abc import AsyncGenerator, AsyncIterator
+from typing import Any

 from botocore.client import BaseClient

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
@ -27,6 +25,7 @@ from llama_stack.apis.inference import (
    ToolDefinition,
    ToolPromptFormat,
 )
+from llama_stack.apis.inference.inference import OpenAICompletion
 from llama_stack.providers.remote.inference.bedrock.config import BedrockConfig
 from llama_stack.providers.utils.bedrock.client import create_bedrock_client
 from llama_stack.providers.utils.inference.model_registry import (
@ -36,7 +35,6 @@ from llama_stack.providers.utils.inference.openai_compat import (
    OpenAIChatCompletionToLlamaStackMixin,
    OpenAICompatCompletionChoice,
    OpenAICompatCompletionResponse,
-    OpenAICompletionToLlamaStackMixin,
    get_sampling_strategy_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
@ -89,7 +87,6 @@ class BedrockInferenceAdapter(
    ModelRegistryHelper,
    Inference,
    OpenAIChatCompletionToLlamaStackMixin,
-    OpenAICompletionToLlamaStackMixin,
 ):
    def __init__(self, config: BedrockConfig) -> None:
        ModelRegistryHelper.__init__(self, model_entries=MODEL_ENTRIES)
@ -109,17 +106,6 @@ class BedrockInferenceAdapter(
        if self._client is not None:
            self._client.close()

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        raise NotImplementedError()
-
    async def chat_completion(
        self,
        model_id: str,
@ -221,3 +207,31 @@ class BedrockInferenceAdapter(
        user: str | None = None,
    ) -> OpenAIEmbeddingsResponse:
        raise NotImplementedError()
+
+    async def openai_completion(
+        self,
+        # Standard OpenAI completion parameters
+        model: str,
+        prompt: str | list[str] | list[int] | list[list[int]],
+        best_of: int | None = None,
+        echo: bool | None = None,
+        frequency_penalty: float | None = None,
+        logit_bias: dict[str, float] | None = None,
+        logprobs: bool | None = None,
+        max_tokens: int | None = None,
+        n: int | None = None,
+        presence_penalty: float | None = None,
+        seed: int | None = None,
+        stop: str | list[str] | None = None,
+        stream: bool | None = None,
+        stream_options: dict[str, Any] | None = None,
+        temperature: float | None = None,
+        top_p: float | None = None,
+        user: str | None = None,
+        # vLLM-specific parameters
+        guided_choice: list[str] | None = None,
+        prompt_logprobs: int | None = None,
+        # for fill-in-the-middle type completion
+        suffix: str | None = None,
+    ) -> OpenAICompletion:
+        raise NotImplementedError("OpenAI completion not supported by the Bedrock provider")
--- a/llama_stack/providers/remote/inference/cerebras/cerebras.py
+++ b/llama_stack/providers/remote/inference/cerebras/cerebras.py
@ -9,9 +9,6 @@ from urllib.parse import urljoin

 from cerebras.cloud.sdk import AsyncCerebras

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    CompletionRequest,
@ -35,8 +32,6 @@ from llama_stack.providers.utils.inference.openai_compat import (
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack.providers.utils.inference.prompt_adapter import (
@ -73,48 +68,6 @@ class CerebrasInferenceAdapter(
    async def shutdown(self) -> None:
        pass

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self.model_store.get_model(model_id)
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(
-                request,
-            )
-        else:
-            return await self._nonstream_completion(request)
-
-    async def _nonstream_completion(self, request: CompletionRequest) -> CompletionResponse:
-        params = await self._get_params(request)
-
-        r = await self._cerebras_client.completions.create(**params)
-
-        return process_completion_response(r)
-
-    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params(request)
-
-        stream = await self._cerebras_client.completions.create(**params)
-
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
    async def chat_completion(
        self,
        model_id: str,
--- a/llama_stack/providers/remote/inference/databricks/databricks.py
+++ b/llama_stack/providers/remote/inference/databricks/databricks.py
@ -9,14 +9,9 @@ from typing import Any

 from databricks.sdk import WorkspaceClient

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionResponse,
    ChatCompletionResponseStreamChunk,
-    CompletionResponse,
-    CompletionResponseStreamChunk,
    Inference,
    LogProbConfig,
    Message,
@ -63,17 +58,6 @@ class DatabricksInferenceAdapter(
    async def shutdown(self) -> None:
        pass

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> CompletionResponse | AsyncIterator[CompletionResponseStreamChunk]:
-        raise NotImplementedError()
-
    async def openai_completion(
        self,
        model: str,
--- a/llama_stack/providers/remote/inference/fireworks/fireworks.py
+++ b/llama_stack/providers/remote/inference/fireworks/fireworks.py
@ -8,14 +8,9 @@ from collections.abc import AsyncGenerator

 from fireworks.client import Fireworks

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
-    CompletionRequest,
-    CompletionResponse,
    Inference,
    LogProbConfig,
    Message,
@ -37,13 +32,10 @@ from llama_stack.providers.utils.inference.openai_compat import (
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_prompt,
-    completion_request_to_prompt,
    request_has_media,
 )

@ -94,79 +86,6 @@ class FireworksInferenceAdapter(OpenAIMixin, ModelRegistryHelper, Inference, Nee
            return prompt[len("<|begin_of_text|>") :]
        return prompt

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self.model_store.get_model(model_id)
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
-    async def _nonstream_completion(self, request: CompletionRequest) -> CompletionResponse:
-        params = await self._get_params(request)
-        r = await self._get_client().completion.acreate(**params)
-        return process_completion_response(r)
-
-    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params(request)
-
-        # Wrapper for async generator similar
-        async def _to_async_generator():
-            stream = self._get_client().completion.create(**params)
-            for chunk in stream:
-                yield chunk
-
-        stream = _to_async_generator()
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
-    def _build_options(
-        self,
-        sampling_params: SamplingParams | None,
-        fmt: ResponseFormat,
-        logprobs: LogProbConfig | None,
-    ) -> dict:
-        options = get_sampling_options(sampling_params)
-        options.setdefault("max_tokens", 512)
-
-        if fmt:
-            if fmt.type == ResponseFormatType.json_schema.value:
-                options["response_format"] = {
-                    "type": "json_object",
-                    "schema": fmt.json_schema,
-                }
-            elif fmt.type == ResponseFormatType.grammar.value:
-                options["response_format"] = {
-                    "type": "grammar",
-                    "grammar": fmt.bnf,
-                }
-            else:
-                raise ValueError(f"Unknown response format {fmt.type}")
-
-        if logprobs and logprobs.top_k:
-            options["logprobs"] = logprobs.top_k
-            if options["logprobs"] <= 0 or options["logprobs"] >= 5:
-                raise ValueError("Required range: 0 < top_k < 5")
-
-        return options
-
    async def chat_completion(
        self,
        model_id: str,
@ -222,22 +141,46 @@ class FireworksInferenceAdapter(OpenAIMixin, ModelRegistryHelper, Inference, Nee
        async for chunk in process_chat_completion_stream_response(stream, request):
            yield chunk

-    async def _get_params(self, request: ChatCompletionRequest | CompletionRequest) -> dict:
+    def _build_options(
+        self,
+        sampling_params: SamplingParams | None,
+        fmt: ResponseFormat | None,
+        logprobs: LogProbConfig | None,
+    ) -> dict:
+        options = get_sampling_options(sampling_params)
+        options.setdefault("max_tokens", 512)
+
+        if fmt:
+            if fmt.type == ResponseFormatType.json_schema.value:
+                options["response_format"] = {
+                    "type": "json_object",
+                    "schema": fmt.json_schema,
+                }
+            elif fmt.type == ResponseFormatType.grammar.value:
+                options["response_format"] = {
+                    "type": "grammar",
+                    "grammar": fmt.bnf,
+                }
+            else:
+                raise ValueError(f"Unknown response format {fmt.type}")
+
+        if logprobs and logprobs.top_k:
+            options["logprobs"] = logprobs.top_k
+            if options["logprobs"] <= 0 or options["logprobs"] >= 5:
+                raise ValueError("Required range: 0 < top_k < 5")
+
+        return options
+
+    async def _get_params(self, request: ChatCompletionRequest) -> dict:
        input_dict = {}
        media_present = request_has_media(request)

        llama_model = self.get_llama_model(request.model)
-        if isinstance(request, ChatCompletionRequest):
-            # TODO: tools are never added to the request, so we need to add them here
-            if media_present or not llama_model:
-                input_dict["messages"] = [
-                    await convert_message_to_openai_dict(m, download=True) for m in request.messages
-                ]
-            else:
-                input_dict["prompt"] = await chat_completion_request_to_prompt(request, llama_model)
+        # TODO: tools are never added to the request, so we need to add them here
+        if media_present or not llama_model:
+            input_dict["messages"] = [await convert_message_to_openai_dict(m, download=True) for m in request.messages]
        else:
-            assert not media_present, "Fireworks does not support media for Completion requests"
-            input_dict["prompt"] = await completion_request_to_prompt(request)
+            input_dict["prompt"] = await chat_completion_request_to_prompt(request, llama_model)

        # Fireworks always prepends with BOS
        if "prompt" in input_dict:
--- a/llama_stack/providers/remote/inference/nvidia/nvidia.py
+++ b/llama_stack/providers/remote/inference/nvidia/nvidia.py
@ -9,16 +9,10 @@ from collections.abc import AsyncIterator

 from openai import NOT_GIVEN, APIConnectionError

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
    ChatCompletionResponseStreamChunk,
-    CompletionRequest,
-    CompletionResponse,
-    CompletionResponseStreamChunk,
    Inference,
    LogProbConfig,
    Message,
@ -37,14 +31,10 @@ from llama_stack.providers.utils.inference.openai_compat import (
    convert_openai_chat_completion_stream,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-from llama_stack.providers.utils.inference.prompt_adapter import content_has_media

 from . import NVIDIAConfig
 from .openai_utils import (
    convert_chat_completion_request,
-    convert_completion_request,
-    convert_openai_completion_choice,
-    convert_openai_completion_stream,
 )
 from .utils import _is_nvidia_hosted

@ -109,48 +99,6 @@ class NVIDIAInferenceAdapter(OpenAIMixin, Inference):
        """
        return f"{self._config.url}/v1" if self._config.append_api_version else self._config.url

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> CompletionResponse | AsyncIterator[CompletionResponseStreamChunk]:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        if content_has_media(content):
-            raise NotImplementedError("Media is not supported")
-
-        # ToDo: check health of NeMo endpoints and enable this
-        # removing this health check as NeMo customizer endpoint health check is returning 404
-        # await check_health(self._config)  # this raises errors
-
-        provider_model_id = await self._get_provider_model_id(model_id)
-        request = convert_completion_request(
-            request=CompletionRequest(
-                model=provider_model_id,
-                content=content,
-                sampling_params=sampling_params,
-                response_format=response_format,
-                stream=stream,
-                logprobs=logprobs,
-            ),
-            n=1,
-        )
-
-        try:
-            response = await self.client.completions.create(**request)
-        except APIConnectionError as e:
-            raise ConnectionError(f"Failed to connect to NVIDIA NIM at {self._config.url}: {e}") from e
-
-        if stream:
-            return convert_openai_completion_stream(response)
-        else:
-            # we pass n=1 to get only one completion
-            return convert_openai_completion_choice(response.choices[0])
-
    async def openai_embeddings(
        self,
        model: str,
--- a/llama_stack/providers/remote/inference/ollama/ollama.py
+++ b/llama_stack/providers/remote/inference/ollama/ollama.py
@ -13,7 +13,6 @@ from ollama import AsyncClient as AsyncOllamaClient

 from llama_stack.apis.common.content_types import (
    ImageContentItem,
-    InterleavedContent,
    TextContentItem,
 )
 from llama_stack.apis.common.errors import UnsupportedModelError
@ -21,9 +20,6 @@ from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
    ChatCompletionResponseStreamChunk,
-    CompletionRequest,
-    CompletionResponse,
-    CompletionResponseStreamChunk,
    GrammarResponseFormat,
    InferenceProvider,
    JsonSchemaResponseFormat,
@ -55,13 +51,10 @@ from llama_stack.providers.utils.inference.openai_compat import (
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_prompt,
-    completion_request_to_prompt,
    convert_image_content_to_url,
    request_has_media,
 )
@ -168,67 +161,6 @@ class OllamaInferenceAdapter(
            raise ValueError("Model store not set")
        return await self.model_store.get_model(model_id)

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> CompletionResponse | AsyncGenerator[CompletionResponseStreamChunk, None]:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self._get_model(model_id)
-        if model.provider_resource_id is None:
-            raise ValueError(f"Model {model_id} has no provider_resource_id set")
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
-    async def _stream_completion(
-        self, request: CompletionRequest
-    ) -> AsyncGenerator[CompletionResponseStreamChunk, None]:
-        params = await self._get_params(request)
-
-        async def _generate_and_convert_to_openai_compat():
-            s = await self.ollama_client.generate(**params)
-            async for chunk in s:
-                choice = OpenAICompatCompletionChoice(
-                    finish_reason=chunk["done_reason"] if chunk["done"] else None,
-                    text=chunk["response"],
-                )
-                yield OpenAICompatCompletionResponse(
-                    choices=[choice],
-                )
-
-        stream = _generate_and_convert_to_openai_compat()
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
-    async def _nonstream_completion(self, request: CompletionRequest) -> CompletionResponse:
-        params = await self._get_params(request)
-        r = await self.ollama_client.generate(**params)
-
-        choice = OpenAICompatCompletionChoice(
-            finish_reason=r["done_reason"] if r["done"] else None,
-            text=r["response"],
-        )
-        response = OpenAICompatCompletionResponse(
-            choices=[choice],
-        )
-
-        return process_completion_response(response)
-
    async def chat_completion(
        self,
        model_id: str,
@ -262,7 +194,7 @@ class OllamaInferenceAdapter(
        else:
            return await self._nonstream_chat_completion(request)

-    async def _get_params(self, request: ChatCompletionRequest | CompletionRequest) -> dict:
+    async def _get_params(self, request: ChatCompletionRequest) -> dict:
        sampling_options = get_sampling_options(request.sampling_params)
        # This is needed since the Ollama API expects num_predict to be set
        # for early truncation instead of max_tokens.
@ -272,21 +204,16 @@ class OllamaInferenceAdapter(
        input_dict: dict[str, Any] = {}
        media_present = request_has_media(request)
        llama_model = self.get_llama_model(request.model)
-        if isinstance(request, ChatCompletionRequest):
-            if media_present or not llama_model:
-                contents = [await convert_message_to_openai_dict_for_ollama(m) for m in request.messages]
-                # flatten the list of lists
-                input_dict["messages"] = [item for sublist in contents for item in sublist]
-            else:
-                input_dict["raw"] = True
-                input_dict["prompt"] = await chat_completion_request_to_prompt(
-                    request,
-                    llama_model,
-                )
+        if media_present or not llama_model:
+            contents = [await convert_message_to_openai_dict_for_ollama(m) for m in request.messages]
+            # flatten the list of lists
+            input_dict["messages"] = [item for sublist in contents for item in sublist]
        else:
-            assert not media_present, "Ollama does not support media for Completion requests"
-            input_dict["prompt"] = await completion_request_to_prompt(request)
            input_dict["raw"] = True
+            input_dict["prompt"] = await chat_completion_request_to_prompt(
+                request,
+                llama_model,
+            )

        if fmt := request.response_format:
            if isinstance(fmt, JsonSchemaResponseFormat):
--- a/llama_stack/providers/remote/inference/passthrough/passthrough.py
+++ b/llama_stack/providers/remote/inference/passthrough/passthrough.py
@ -9,7 +9,6 @@ from typing import Any

 from llama_stack_client import AsyncLlamaStackClient

-from llama_stack.apis.common.content_types import InterleavedContent
 from llama_stack.apis.inference import (
    ChatCompletionResponse,
    ChatCompletionResponseStreamChunk,
@ -86,37 +85,6 @@ class PassthroughInferenceAdapter(Inference):
            provider_data=provider_data,
        )

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        client = self._get_client()
-        model = await self.model_store.get_model(model_id)
-
-        request_params = {
-            "model_id": model.provider_resource_id,
-            "content": content,
-            "sampling_params": sampling_params,
-            "response_format": response_format,
-            "stream": stream,
-            "logprobs": logprobs,
-        }
-
-        request_params = {key: value for key, value in request_params.items() if value is not None}
-
-        # cast everything to json dict
-        json_params = self.cast_value_to_json_dict(request_params)
-
-        # only pass through the not None params
-        return await client.inference.completion(**json_params)
-
    async def chat_completion(
        self,
        model_id: str,
--- a/llama_stack/providers/remote/inference/runpod/runpod.py
+++ b/llama_stack/providers/remote/inference/runpod/runpod.py
@ -14,7 +14,6 @@ from llama_stack.apis.inference import OpenAIEmbeddingsResponse
 from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper, build_hf_repo_model_entry
 from llama_stack.providers.utils.inference.openai_compat import (
    OpenAIChatCompletionToLlamaStackMixin,
-    OpenAICompletionToLlamaStackMixin,
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
@ -55,7 +54,6 @@ class RunpodInferenceAdapter(
    ModelRegistryHelper,
    Inference,
    OpenAIChatCompletionToLlamaStackMixin,
-    OpenAICompletionToLlamaStackMixin,
 ):
    def __init__(self, config: RunpodImplConfig) -> None:
        ModelRegistryHelper.__init__(self, stack_to_provider_models_map=RUNPOD_SUPPORTED_MODELS)
@ -67,17 +65,6 @@ class RunpodInferenceAdapter(
    async def shutdown(self) -> None:
        pass

-    async def completion(
-        self,
-        model: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        raise NotImplementedError()
-
    async def chat_completion(
        self,
        model: str,
--- a/llama_stack/providers/remote/inference/tgi/tgi.py
+++ b/llama_stack/providers/remote/inference/tgi/tgi.py
@ -10,13 +10,9 @@ from collections.abc import AsyncGenerator
 from huggingface_hub import AsyncInferenceClient, HfApi
 from pydantic import SecretStr

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
-    CompletionRequest,
    Inference,
    LogProbConfig,
    Message,
@ -44,13 +40,10 @@ from llama_stack.providers.utils.inference.openai_compat import (
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_model_input_info,
-    completion_request_to_prompt_model_input_info,
 )

 from .config import InferenceAPIImplConfig, InferenceEndpointImplConfig, TGIImplConfig
@ -122,31 +115,6 @@ class _HfAdapter(
    async def unregister_model(self, model_id: str) -> None:
        pass

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self.model_store.get_model(model_id)
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
    def _get_max_new_tokens(self, sampling_params, input_tokens):
        return min(
            sampling_params.max_tokens or (self.max_tokens - input_tokens),
@ -180,53 +148,6 @@ class _HfAdapter(

        return options

-    async def _get_params_for_completion(self, request: CompletionRequest) -> dict:
-        prompt, input_tokens = await completion_request_to_prompt_model_input_info(request)
-
-        return dict(
-            prompt=prompt,
-            stream=request.stream,
-            details=True,
-            max_new_tokens=self._get_max_new_tokens(request.sampling_params, input_tokens),
-            stop_sequences=["<|eom_id|>", "<|eot_id|>"],
-            **self._build_options(request.sampling_params, request.response_format),
-        )
-
-    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params_for_completion(request)
-
-        async def _generate_and_convert_to_openai_compat():
-            s = await self.hf_client.text_generation(**params)
-            async for chunk in s:
-                token_result = chunk.token
-                finish_reason = None
-                if chunk.details:
-                    finish_reason = chunk.details.finish_reason
-
-                choice = OpenAICompatCompletionChoice(text=token_result.text, finish_reason=finish_reason)
-                yield OpenAICompatCompletionResponse(
-                    choices=[choice],
-                )
-
-        stream = _generate_and_convert_to_openai_compat()
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
-    async def _nonstream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params_for_completion(request)
-        r = await self.hf_client.text_generation(**params)
-
-        choice = OpenAICompatCompletionChoice(
-            finish_reason=r.details.finish_reason,
-            text="".join(t.text for t in r.details.tokens),
-        )
-
-        response = OpenAICompatCompletionResponse(
-            choices=[choice],
-        )
-
-        return process_completion_response(response)
-
    async def chat_completion(
        self,
        model_id: str,
--- a/llama_stack/providers/remote/inference/together/together.py
+++ b/llama_stack/providers/remote/inference/together/together.py
@ -10,13 +10,9 @@ from openai import AsyncOpenAI
 from together import AsyncTogether
 from together.constants import BASE_URL

-from llama_stack.apis.common.content_types import (
-    InterleavedContent,
-)
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
-    CompletionRequest,
    Inference,
    LogProbConfig,
    Message,
@ -39,13 +35,10 @@ from llama_stack.providers.utils.inference.openai_compat import (
    get_sampling_options,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_prompt,
-    completion_request_to_prompt,
    request_has_media,
 )

@ -81,31 +74,6 @@ class TogetherInferenceAdapter(OpenAIMixin, ModelRegistryHelper, Inference, Need
    async def shutdown(self) -> None:
        pass

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self.model_store.get_model(model_id)
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
    def _get_client(self) -> AsyncTogether:
        together_api_key = None
        config_api_key = self.config.api_key.get_secret_value() if self.config.api_key else None
@ -127,19 +95,6 @@ class TogetherInferenceAdapter(OpenAIMixin, ModelRegistryHelper, Inference, Need
            api_key=together_client.api_key,
        )

-    async def _nonstream_completion(self, request: CompletionRequest) -> ChatCompletionResponse:
-        params = await self._get_params(request)
-        client = self._get_client()
-        r = await client.completions.create(**params)
-        return process_completion_response(r)
-
-    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params(request)
-        client = self._get_client()
-        stream = await client.completions.create(**params)
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
    def _build_options(
        self,
        sampling_params: SamplingParams | None,
@ -219,18 +174,14 @@ class TogetherInferenceAdapter(OpenAIMixin, ModelRegistryHelper, Inference, Need
        async for chunk in process_chat_completion_stream_response(stream, request):
            yield chunk

-    async def _get_params(self, request: ChatCompletionRequest | CompletionRequest) -> dict:
+    async def _get_params(self, request: ChatCompletionRequest) -> dict:
        input_dict = {}
        media_present = request_has_media(request)
        llama_model = self.get_llama_model(request.model)
-        if isinstance(request, ChatCompletionRequest):
-            if media_present or not llama_model:
-                input_dict["messages"] = [await convert_message_to_openai_dict(m) for m in request.messages]
-            else:
-                input_dict["prompt"] = await chat_completion_request_to_prompt(request, llama_model)
+        if media_present or not llama_model:
+            input_dict["messages"] = [await convert_message_to_openai_dict(m) for m in request.messages]
        else:
-            assert not media_present, "Together does not support media for Completion requests"
-            input_dict["prompt"] = await completion_request_to_prompt(request)
+            input_dict["prompt"] = await chat_completion_request_to_prompt(request, llama_model)

        params = {
            "model": request.model,
--- a/llama_stack/providers/remote/inference/vllm/vllm.py
+++ b/llama_stack/providers/remote/inference/vllm/vllm.py
@ -15,7 +15,6 @@ from openai.types.chat.chat_completion_chunk import (
 )

 from llama_stack.apis.common.content_types import (
-    InterleavedContent,
    TextDelta,
    ToolCallDelta,
    ToolCallParseStatus,
@ -27,9 +26,6 @@ from llama_stack.apis.inference import (
    ChatCompletionResponseEventType,
    ChatCompletionResponseStreamChunk,
    CompletionMessage,
-    CompletionRequest,
-    CompletionResponse,
-    CompletionResponseStreamChunk,
    GrammarResponseFormat,
    Inference,
    JsonSchemaResponseFormat,
@ -64,14 +60,8 @@ from llama_stack.providers.utils.inference.openai_compat import (
    convert_tool_call,
    get_sampling_options,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-from llama_stack.providers.utils.inference.prompt_adapter import (
-    completion_request_to_prompt,
-    request_has_media,
-)

 from .config import VLLMInferenceAdapterConfig

@ -349,33 +339,6 @@ class VLLMInferenceAdapter(OpenAIMixin, LiteLLMOpenAIMixin, Inference, ModelsPro
    def get_extra_client_params(self):
        return {"http_client": httpx.AsyncClient(verify=self.config.tls_verify)}

-    async def completion(  # type: ignore[override]  # Return type more specific than base class  which is allows for both streaming and non-streaming responses.
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> CompletionResponse | AsyncGenerator[CompletionResponseStreamChunk, None]:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self._get_model(model_id)
-        if model.provider_resource_id is None:
-            raise ValueError(f"Model {model_id} has no provider_resource_id set")
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
    async def chat_completion(
        self,
        model_id: str,
@ -460,24 +423,6 @@ class VLLMInferenceAdapter(OpenAIMixin, LiteLLMOpenAIMixin, Inference, ModelsPro
        async for chunk in res:
            yield chunk

-    async def _nonstream_completion(self, request: CompletionRequest) -> CompletionResponse:
-        if self.client is None:
-            raise RuntimeError("Client is not initialized")
-        params = await self._get_params(request)
-        r = await self.client.completions.create(**params)
-        return process_completion_response(r)
-
-    async def _stream_completion(
-        self, request: CompletionRequest
-    ) -> AsyncGenerator[CompletionResponseStreamChunk, None]:
-        if self.client is None:
-            raise RuntimeError("Client is not initialized")
-        params = await self._get_params(request)
-
-        stream = await self.client.completions.create(**params)
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
    async def register_model(self, model: Model) -> Model:
        try:
            model = await self.register_helper.register_model(model)
@ -497,7 +442,7 @@ class VLLMInferenceAdapter(OpenAIMixin, LiteLLMOpenAIMixin, Inference, ModelsPro
            )
        return model

-    async def _get_params(self, request: ChatCompletionRequest | CompletionRequest) -> dict:
+    async def _get_params(self, request: ChatCompletionRequest) -> dict:
        options = get_sampling_options(request.sampling_params)
        if "max_tokens" not in options:
            options["max_tokens"] = self.config.max_tokens
@ -507,11 +452,7 @@ class VLLMInferenceAdapter(OpenAIMixin, LiteLLMOpenAIMixin, Inference, ModelsPro
        if isinstance(request, ChatCompletionRequest) and request.tools:
            input_dict = {"tools": _convert_to_vllm_tools_in_request(request.tools)}

-        if isinstance(request, ChatCompletionRequest):
-            input_dict["messages"] = [await convert_message_to_openai_dict(m, download=True) for m in request.messages]
-        else:
-            assert not request_has_media(request), "vLLM does not support media for Completion requests"
-            input_dict["prompt"] = await completion_request_to_prompt(request)
+        input_dict["messages"] = [await convert_message_to_openai_dict(m, download=True) for m in request.messages]

        if fmt := request.response_format:
            if isinstance(fmt, JsonSchemaResponseFormat):
--- a/llama_stack/providers/remote/inference/watsonx/watsonx.py
+++ b/llama_stack/providers/remote/inference/watsonx/watsonx.py
@ -11,7 +11,6 @@ from ibm_watsonx_ai.foundation_models import Model
 from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
 from openai import AsyncOpenAI

-from llama_stack.apis.common.content_types import InterleavedContent
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    ChatCompletionResponse,
@ -43,8 +42,6 @@ from llama_stack.providers.utils.inference.openai_compat import (
    prepare_openai_completion_params,
    process_chat_completion_response,
    process_chat_completion_stream_response,
-    process_completion_response,
-    process_completion_stream_response,
 )
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_prompt,
@ -87,31 +84,6 @@ class WatsonXInferenceAdapter(Inference, ModelRegistryHelper):
    async def shutdown(self) -> None:
        pass

-    async def completion(
-        self,
-        model_id: str,
-        content: InterleavedContent,
-        sampling_params: SamplingParams | None = None,
-        response_format: ResponseFormat | None = None,
-        stream: bool | None = False,
-        logprobs: LogProbConfig | None = None,
-    ) -> AsyncGenerator:
-        if sampling_params is None:
-            sampling_params = SamplingParams()
-        model = await self.model_store.get_model(model_id)
-        request = CompletionRequest(
-            model=model.provider_resource_id,
-            content=content,
-            sampling_params=sampling_params,
-            response_format=response_format,
-            stream=stream,
-            logprobs=logprobs,
-        )
-        if stream:
-            return self._stream_completion(request)
-        else:
-            return await self._nonstream_completion(request)
-
    def _get_client(self, model_id) -> Model:
        config_api_key = self._config.api_key.get_secret_value() if self._config.api_key else None
        config_url = self._config.url
@ -128,40 +100,6 @@ class WatsonXInferenceAdapter(Inference, ModelRegistryHelper):
            )
        return self._openai_client

-    async def _nonstream_completion(self, request: CompletionRequest) -> ChatCompletionResponse:
-        params = await self._get_params(request)
-        r = self._get_client(request.model).generate(**params)
-        choices = []
-        if "results" in r:
-            for result in r["results"]:
-                choice = OpenAICompatCompletionChoice(
-                    finish_reason=result["stop_reason"] if result["stop_reason"] else None,
-                    text=result["generated_text"],
-                )
-                choices.append(choice)
-        response = OpenAICompatCompletionResponse(
-            choices=choices,
-        )
-        return process_completion_response(response)
-
-    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = await self._get_params(request)
-
-        async def _generate_and_convert_to_openai_compat():
-            s = self._get_client(request.model).generate_text_stream(**params)
-            for chunk in s:
-                choice = OpenAICompatCompletionChoice(
-                    finish_reason=None,
-                    text=chunk,
-                )
-                yield OpenAICompatCompletionResponse(
-                    choices=[choice],
-                )
-
-        stream = _generate_and_convert_to_openai_compat()
-        async for chunk in process_completion_stream_response(stream):
-            yield chunk
-
    async def chat_completion(
        self,
        model_id: str,