Split off meta-reference-quantized provider

2025-12-04 02:03:44 +00:00 · 2024-10-10 15:54:08 -07:00 · 2024-10-10 15:54:08 -07:00 · 1ff0476002
commit 1ff0476002
parent 7ff5800dea
10 changed files with 54 additions and 58 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -14,6 +14,21 @@ def available_providers() -> List[ProviderSpec]:
        InlineProviderSpec(
            api=Api.inference,
            provider_type="meta-reference",
+            pip_packages=[
+                "accelerate",
+                "blobfile",
+                "fairscale",
+                "torch",
+                "torchvision",
+                "transformers",
+                "zmq",
+            ],
+            module="llama_stack.providers.impls.meta_reference.inference",
+            config_class="llama_stack.providers.impls.meta_reference.inference.MetaReferenceInferenceConfig",
+        ),
+        InlineProviderSpec(
+            api=Api.inference,
+            provider_type="meta-reference-quantized",
            pip_packages=[
                "accelerate",
                "blobfile",
@ -25,7 +40,7 @@ def available_providers() -> List[ProviderSpec]:
                "zmq",
            ],
            module="llama_stack.providers.impls.meta_reference.inference",
-            config_class="llama_stack.providers.impls.meta_reference.inference.MetaReferenceImplConfig",
+            config_class="llama_stack.providers.impls.meta_reference.inference.MetaReferenceQuantizedInferenceConfig",
        ),
        remote_provider_spec(
            api=Api.inference,