resource oriented object design for models

2025-12-18 00:29:46 +00:00 · 2024-11-07 16:43:55 -08:00 · 2024-11-07 16:43:55 -08:00 · ca88f3f182
commit ca88f3f182
parent 5625aef48a
17 changed files with 63 additions and 82 deletions
--- a/llama_stack/providers/inline/inference/vllm/vllm.py
+++ b/llama_stack/providers/inline/inference/vllm/vllm.py
@ -20,7 +20,7 @@ from vllm.sampling_params import SamplingParams as VLLMSamplingParams

 from llama_stack.apis.inference import *  # noqa: F403

-from llama_stack.providers.datatypes import ModelDef, ModelsProtocolPrivate
+from llama_stack.providers.datatypes import Model, ModelsProtocolPrivate
 from llama_stack.providers.utils.inference.openai_compat import (
    OpenAICompatCompletionChoice,
    OpenAICompatCompletionResponse,
@ -83,14 +83,14 @@ class VLLMInferenceImpl(Inference, ModelsProtocolPrivate):
        if self.engine:
            self.engine.shutdown_background_loop()

-    async def register_model(self, model: ModelDef) -> None:
+    async def register_model(self, model: Model) -> None:
        raise ValueError(
            "You cannot dynamically add a model to a running vllm instance"
        )

-    async def list_models(self) -> List[ModelDef]:
+    async def list_models(self) -> List[Model]:
        return [
-            ModelDef(
+            Model(
                identifier=self.config.model,
                llama_model=self.config.model,
            )