OpenAI completion prompt can also include tokens

The OpenAI completion API supports strings, array of strings, array of tokens, or array of token arrays. So, expand our type hinting to support all of these types. Signed-off-by: Ben Browning <bbrownin@redhat.com>
2025-08-03 09:21:45 +00:00 · 2025-04-09 10:05:50 -04:00 · 2025-04-09 10:05:50 -04:00 · fcdeb3d7bf
commit fcdeb3d7bf
parent a6cf8fa12b
8 changed files with 8 additions and 8 deletions
--- a/llama_stack/apis/inference/inference.py
+++ b/llama_stack/apis/inference/inference.py
@ -780,7 +780,7 @@ class Inference(Protocol):
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/distribution/routers/routers.py
+++ b/llama_stack/distribution/routers/routers.py
@ -423,7 +423,7 @@ class InferenceRouter(Inference):
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/remote/inference/ollama/ollama.py
+++ b/llama_stack/providers/remote/inference/ollama/ollama.py
@ -331,7 +331,7 @@ class OllamaInferenceAdapter(
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/remote/inference/passthrough/passthrough.py
+++ b/llama_stack/providers/remote/inference/passthrough/passthrough.py
@ -206,7 +206,7 @@ class PassthroughInferenceAdapter(Inference):
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/remote/inference/together/together.py
+++ b/llama_stack/providers/remote/inference/together/together.py
@ -260,7 +260,7 @@ class TogetherInferenceAdapter(ModelRegistryHelper, Inference, NeedsRequestProvi
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/remote/inference/vllm/vllm.py
+++ b/llama_stack/providers/remote/inference/vllm/vllm.py
@ -424,7 +424,7 @@ class VLLMInferenceAdapter(Inference, ModelsProtocolPrivate):
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/utils/inference/litellm_openai_mixin.py
+++ b/llama_stack/providers/utils/inference/litellm_openai_mixin.py
@ -251,7 +251,7 @@ class LiteLLMOpenAIMixin(
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,
--- a/llama_stack/providers/utils/inference/openai_compat.py
+++ b/llama_stack/providers/utils/inference/openai_compat.py
@ -1088,7 +1088,7 @@ class OpenAICompletionUnsupportedMixin:
    async def openai_completion(
        self,
        model: str,
-        prompt: Union[str, List[str]],
+        prompt: Union[str, List[str], List[int], List[List[int]]],
        best_of: Optional[int] = None,
        echo: Optional[bool] = None,
        frequency_penalty: Optional[float] = None,