Merge branch 'main' into santiagxf/azure-ai-inference

2025-10-15 22:47:59 +00:00 · 2024-11-07 12:43:55 -05:00 · 2024-11-07 12:43:55 -05:00 · 5c429b0b67
commit 5c429b0b67
parent e247849d1b cfcc0a871c
273 changed files with 5491 additions and 5418 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -27,8 +27,8 @@ def available_providers() -> List[ProviderSpec]:
            api=Api.inference,
            provider_type="meta-reference",
            pip_packages=META_REFERENCE_DEPS,
-            module="llama_stack.providers.impls.meta_reference.inference",
-            config_class="llama_stack.providers.impls.meta_reference.inference.MetaReferenceInferenceConfig",
+            module="llama_stack.providers.inline.meta_reference.inference",
+            config_class="llama_stack.providers.inline.meta_reference.inference.MetaReferenceInferenceConfig",
        ),
        InlineProviderSpec(
            api=Api.inference,
@ -40,16 +40,16 @@ def available_providers() -> List[ProviderSpec]:
                    "torchao==0.5.0",
                ]
            ),
-            module="llama_stack.providers.impls.meta_reference.inference",
-            config_class="llama_stack.providers.impls.meta_reference.inference.MetaReferenceQuantizedInferenceConfig",
+            module="llama_stack.providers.inline.meta_reference.inference",
+            config_class="llama_stack.providers.inline.meta_reference.inference.MetaReferenceQuantizedInferenceConfig",
        ),
        remote_provider_spec(
            api=Api.inference,
            adapter=AdapterSpec(
                adapter_type="sample",
                pip_packages=[],
-                module="llama_stack.providers.adapters.inference.sample",
-                config_class="llama_stack.providers.adapters.inference.sample.SampleConfig",
+                module="llama_stack.providers.remote.inference.sample",
+                config_class="llama_stack.providers.remote.inference.sample.SampleConfig",
            ),
        ),
        remote_provider_spec(
@ -57,26 +57,26 @@ def available_providers() -> List[ProviderSpec]:
            adapter=AdapterSpec(
                adapter_type="ollama",
                pip_packages=["ollama", "aiohttp"],
-                config_class="llama_stack.providers.adapters.inference.ollama.OllamaImplConfig",
-                module="llama_stack.providers.adapters.inference.ollama",
+                config_class="llama_stack.providers.remote.inference.ollama.OllamaImplConfig",
+                module="llama_stack.providers.remote.inference.ollama",
+            ),
+        ),
+        remote_provider_spec(
+            api=Api.inference,
+            adapter=AdapterSpec(
+                adapter_type="vllm",
+                pip_packages=["openai"],
+                module="llama_stack.providers.remote.inference.vllm",
+                config_class="llama_stack.providers.remote.inference.vllm.VLLMInferenceAdapterConfig",
            ),
        ),
-        # remote_provider_spec(
-        #     api=Api.inference,
-        #     adapter=AdapterSpec(
-        #         adapter_type="vllm",
-        #         pip_packages=["openai"],
-        #         module="llama_stack.providers.adapters.inference.vllm",
-        #         config_class="llama_stack.providers.adapters.inference.vllm.VLLMImplConfig",
-        #     ),
-        # ),
        remote_provider_spec(
            api=Api.inference,
            adapter=AdapterSpec(
                adapter_type="tgi",
                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.adapters.inference.tgi",
-                config_class="llama_stack.providers.adapters.inference.tgi.TGIImplConfig",
+                module="llama_stack.providers.remote.inference.tgi",
+                config_class="llama_stack.providers.remote.inference.tgi.TGIImplConfig",
            ),
        ),
        remote_provider_spec(
@ -84,8 +84,8 @@ def available_providers() -> List[ProviderSpec]:
            adapter=AdapterSpec(
                adapter_type="hf::serverless",
                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.adapters.inference.tgi",
-                config_class="llama_stack.providers.adapters.inference.tgi.InferenceAPIImplConfig",
+                module="llama_stack.providers.remote.inference.tgi",
+                config_class="llama_stack.providers.remote.inference.tgi.InferenceAPIImplConfig",
            ),
        ),
        remote_provider_spec(
@ -93,8 +93,8 @@ def available_providers() -> List[ProviderSpec]:
            adapter=AdapterSpec(
                adapter_type="hf::endpoint",
                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.adapters.inference.tgi",
-                config_class="llama_stack.providers.adapters.inference.tgi.InferenceEndpointImplConfig",
+                module="llama_stack.providers.remote.inference.tgi",
+                config_class="llama_stack.providers.remote.inference.tgi.InferenceEndpointImplConfig",
            ),
        ),
        remote_provider_spec(
@ -104,8 +104,8 @@ def available_providers() -> List[ProviderSpec]:
                pip_packages=[
                    "fireworks-ai",
                ],
-                module="llama_stack.providers.adapters.inference.fireworks",
-                config_class="llama_stack.providers.adapters.inference.fireworks.FireworksImplConfig",
+                module="llama_stack.providers.remote.inference.fireworks",
+                config_class="llama_stack.providers.remote.inference.fireworks.FireworksImplConfig",
            ),
        ),
        remote_provider_spec(
@ -115,9 +115,9 @@ def available_providers() -> List[ProviderSpec]:
                pip_packages=[
                    "together",
                ],
-                module="llama_stack.providers.adapters.inference.together",
-                config_class="llama_stack.providers.adapters.inference.together.TogetherImplConfig",
-                provider_data_validator="llama_stack.providers.adapters.safety.together.TogetherProviderDataValidator",
+                module="llama_stack.providers.remote.inference.together",
+                config_class="llama_stack.providers.remote.inference.together.TogetherImplConfig",
+                provider_data_validator="llama_stack.providers.remote.safety.together.TogetherProviderDataValidator",
            ),
        ),
        remote_provider_spec(
@ -125,8 +125,8 @@ def available_providers() -> List[ProviderSpec]:
            adapter=AdapterSpec(
                adapter_type="bedrock",
                pip_packages=["boto3"],
-                module="llama_stack.providers.adapters.inference.bedrock",
-                config_class="llama_stack.providers.adapters.inference.bedrock.BedrockConfig",
+                module="llama_stack.providers.remote.inference.bedrock",
+                config_class="llama_stack.providers.remote.inference.bedrock.BedrockConfig",
            ),
        ),
        remote_provider_spec(
@ -136,8 +136,8 @@ def available_providers() -> List[ProviderSpec]:
                pip_packages=[
                    "openai",
                ],
-                module="llama_stack.providers.adapters.inference.databricks",
-                config_class="llama_stack.providers.adapters.inference.databricks.DatabricksImplConfig",
+                module="llama_stack.providers.remote.inference.databricks",
+                config_class="llama_stack.providers.remote.inference.databricks.DatabricksImplConfig",
            ),
        ),
        remote_provider_spec(
@ -155,7 +155,7 @@ def available_providers() -> List[ProviderSpec]:
            pip_packages=[
                "vllm",
            ],
-            module="llama_stack.providers.impls.vllm",
-            config_class="llama_stack.providers.impls.vllm.VLLMConfig",
+            module="llama_stack.providers.inline.vllm",
+            config_class="llama_stack.providers.inline.vllm.VLLMConfig",
        ),
    ]