migrate model to Resource and new registration signature (#410)

* resource oriented object design for models * add back llama_model field * working tests * register singature fix * address feedback --------- Co-authored-by: Dinesh Yeduguru <dineshyv@fb.com>
2025-12-03 18:00:36 +00:00 · 2024-11-08 16:12:57 -08:00 · 2024-11-08 16:12:57 -08:00 · ec644d3418
commit ec644d3418
parent bd0622ef10
17 changed files with 99 additions and 90 deletions
--- a/llama_stack/providers/inline/inference/meta_reference/inference.py
+++ b/llama_stack/providers/inline/inference/meta_reference/inference.py
@ -12,7 +12,7 @@ from llama_models.sku_list import resolve_model

 from llama_models.llama3.api.datatypes import *  # noqa: F403
 from llama_stack.apis.inference import *  # noqa: F403
-from llama_stack.providers.datatypes import ModelDef, ModelsProtocolPrivate
+from llama_stack.providers.datatypes import Model, ModelsProtocolPrivate

 from llama_stack.providers.utils.inference.prompt_adapter import (
    convert_image_media_to_url,
@ -45,16 +45,11 @@ class MetaReferenceInferenceImpl(Inference, ModelsProtocolPrivate):
        else:
            self.generator = Llama.build(self.config)

-    async def register_model(self, model: ModelDef) -> None:
-        raise ValueError("Dynamic model registration is not supported")
-
-    async def list_models(self) -> List[ModelDef]:
-        return [
-            ModelDef(
-                identifier=self.model.descriptor(),
-                llama_model=self.model.descriptor(),
+    async def register_model(self, model: Model) -> None:
+        if model.identifier != self.model.descriptor():
+            raise ValueError(
+                f"Model mismatch: {model.identifier} != {self.model.descriptor()}"
            )
-        ]

    async def shutdown(self) -> None:
        if self.config.create_distributed_process_group:
--- a/llama_stack/providers/inline/inference/vllm/vllm.py
+++ b/llama_stack/providers/inline/inference/vllm/vllm.py
@ -20,7 +20,7 @@ from vllm.sampling_params import SamplingParams as VLLMSamplingParams

 from llama_stack.apis.inference import *  # noqa: F403

-from llama_stack.providers.datatypes import ModelDef, ModelsProtocolPrivate
+from llama_stack.providers.datatypes import Model, ModelsProtocolPrivate
 from llama_stack.providers.utils.inference.openai_compat import (
    OpenAICompatCompletionChoice,
    OpenAICompatCompletionResponse,
@ -83,19 +83,11 @@ class VLLMInferenceImpl(Inference, ModelsProtocolPrivate):
        if self.engine:
            self.engine.shutdown_background_loop()

-    async def register_model(self, model: ModelDef) -> None:
+    async def register_model(self, model: Model) -> None:
        raise ValueError(
            "You cannot dynamically add a model to a running vllm instance"
        )

-    async def list_models(self) -> List[ModelDef]:
-        return [
-            ModelDef(
-                identifier=self.config.model,
-                llama_model=self.config.model,
-            )
-        ]
-
    def _sampling_params(self, sampling_params: SamplingParams) -> VLLMSamplingParams:
        if sampling_params is None:
            return VLLMSamplingParams(max_tokens=self.config.max_tokens)