Add prompt_logprobs and guided_choice to OpenAI completions

This adds the vLLM-specific extra_body parameters of prompt_logprobs and guided_choice to our openai_completion inference endpoint. The plan here would be to expand this to support all common optional parameters of any of the OpenAI providers, allowing each provider to use or ignore these parameters based on whether their server supports them. Signed-off-by: Ben Browning <bbrownin@redhat.com>
2025-12-31 06:43:52 +00:00 · 2025-04-09 15:43:53 -04:00 · 2025-04-09 15:43:53 -04:00 · ac5dc8fae2
commit ac5dc8fae2
parent ef684ff178
11 changed files with 98 additions and 5 deletions
--- a/llama_stack/providers/remote/inference/ollama/ollama.py
+++ b/llama_stack/providers/remote/inference/ollama/ollama.py
@ -347,6 +347,8 @@ class OllamaInferenceAdapter(
        temperature: Optional[float] = None,
        top_p: Optional[float] = None,
        user: Optional[str] = None,
+        guided_choice: Optional[List[str]] = None,
+        prompt_logprobs: Optional[int] = None,
    ) -> OpenAICompletion:
        if not isinstance(prompt, str):
            raise ValueError("Ollama does not support non-string prompts for completion")
--- a/llama_stack/providers/remote/inference/passthrough/passthrough.py
+++ b/llama_stack/providers/remote/inference/passthrough/passthrough.py
@ -222,6 +222,8 @@ class PassthroughInferenceAdapter(Inference):
        temperature: Optional[float] = None,
        top_p: Optional[float] = None,
        user: Optional[str] = None,
+        guided_choice: Optional[List[str]] = None,
+        prompt_logprobs: Optional[int] = None,
    ) -> OpenAICompletion:
        client = self._get_client()
        model_obj = await self.model_store.get_model(model)
@ -244,6 +246,8 @@ class PassthroughInferenceAdapter(Inference):
            temperature=temperature,
            top_p=top_p,
            user=user,
+            guided_choice=guided_choice,
+            prompt_logprobs=prompt_logprobs,
        )

        return await client.inference.openai_completion(**params)
--- a/llama_stack/providers/remote/inference/together/together.py
+++ b/llama_stack/providers/remote/inference/together/together.py
@ -276,6 +276,8 @@ class TogetherInferenceAdapter(ModelRegistryHelper, Inference, NeedsRequestProvi
        temperature: Optional[float] = None,
        top_p: Optional[float] = None,
        user: Optional[str] = None,
+        guided_choice: Optional[List[str]] = None,
+        prompt_logprobs: Optional[int] = None,
    ) -> OpenAICompletion:
        model_obj = await self._get_model(model)
        params = await prepare_openai_completion_params(
@ -296,6 +298,8 @@ class TogetherInferenceAdapter(ModelRegistryHelper, Inference, NeedsRequestProvi
            temperature=temperature,
            top_p=top_p,
            user=user,
+            guided_choice=guided_choice,
+            prompt_logprobs=prompt_logprobs,
        )
        return await self._get_openai_client().completions.create(**params)  # type: ignore

--- a/llama_stack/providers/remote/inference/vllm/vllm.py
+++ b/llama_stack/providers/remote/inference/vllm/vllm.py
@ -440,8 +440,17 @@ class VLLMInferenceAdapter(Inference, ModelsProtocolPrivate):
        temperature: Optional[float] = None,
        top_p: Optional[float] = None,
        user: Optional[str] = None,
+        guided_choice: Optional[List[str]] = None,
+        prompt_logprobs: Optional[int] = None,
    ) -> OpenAICompletion:
        model_obj = await self._get_model(model)
+
+        extra_body: Dict[str, Any] = {}
+        if prompt_logprobs:
+            extra_body["prompt_logprobs"] = prompt_logprobs
+        if guided_choice:
+            extra_body["guided_choice"] = guided_choice
+
        params = await prepare_openai_completion_params(
            model=model_obj.provider_resource_id,
            prompt=prompt,
@ -460,6 +469,7 @@ class VLLMInferenceAdapter(Inference, ModelsProtocolPrivate):
            temperature=temperature,
            top_p=top_p,
            user=user,
+            extra_body=extra_body,
        )
        return await self.client.completions.create(**params)  # type: ignore