feat: combine ProviderSpec datatypes

currently `RemoteProviderSpec` has an `AdapterSpec` embedded in it. Remove `AdapterSpec`, and put its leftover fields into `RemoteProviderSpec`. Additionally, many of the fields were duplicated between `InlineProviderSpec` and `RemoteProviderSpec`. Move these to `ProviderSpec` so they are shared. Fixup the distro codegen to use `RemoteProviderSpec` directly rather than `remote_provider_spec` which took an AdapterSpec and returned a full provider spec Signed-off-by: Charlie Doern <cdoern@redhat.com>
2025-10-04 12:07:34 +00:00 · 2025-09-08 15:51:53 -04:00 · 2025-09-08 15:51:53 -04:00 · 686f87d138
commit 686f87d138
parent e66103c09d
15 changed files with 381 additions and 503 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -6,11 +6,10 @@


 from llama_stack.providers.datatypes import (
-    AdapterSpec,
    Api,
    InlineProviderSpec,
    ProviderSpec,
-    remote_provider_spec,
+    RemoteProviderSpec,
 )

 META_REFERENCE_DEPS = [
@ -49,177 +48,167 @@ def available_providers() -> list[ProviderSpec]:
            config_class="llama_stack.providers.inline.inference.sentence_transformers.config.SentenceTransformersInferenceConfig",
            description="Sentence Transformers inference provider for text embeddings and similarity search.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="cerebras",
-                pip_packages=[
-                    "cerebras_cloud_sdk",
-                ],
-                module="llama_stack.providers.remote.inference.cerebras",
-                config_class="llama_stack.providers.remote.inference.cerebras.CerebrasImplConfig",
-                description="Cerebras inference provider for running models on Cerebras Cloud platform.",
-            ),
+            adapter_type="cerebras",
+            provider_type="remote::cerebras",
+            pip_packages=[
+                "cerebras_cloud_sdk",
+            ],
+            module="llama_stack.providers.remote.inference.cerebras",
+            config_class="llama_stack.providers.remote.inference.cerebras.CerebrasImplConfig",
+            description="Cerebras inference provider for running models on Cerebras Cloud platform.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="ollama",
-                pip_packages=["ollama", "aiohttp", "h11>=0.16.0"],
-                config_class="llama_stack.providers.remote.inference.ollama.OllamaImplConfig",
-                module="llama_stack.providers.remote.inference.ollama",
-                description="Ollama inference provider for running local models through the Ollama runtime.",
-            ),
+            adapter_type="ollama",
+            provider_type="remote::ollama",
+            pip_packages=["ollama", "aiohttp", "h11>=0.16.0"],
+            config_class="llama_stack.providers.remote.inference.ollama.OllamaImplConfig",
+            module="llama_stack.providers.remote.inference.ollama",
+            description="Ollama inference provider for running local models through the Ollama runtime.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="vllm",
-                pip_packages=[],
-                module="llama_stack.providers.remote.inference.vllm",
-                config_class="llama_stack.providers.remote.inference.vllm.VLLMInferenceAdapterConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.vllm.VLLMProviderDataValidator",
-                description="Remote vLLM inference provider for connecting to vLLM servers.",
-            ),
+            adapter_type="vllm",
+            provider_type="remote::vllm",
+            pip_packages=[],
+            module="llama_stack.providers.remote.inference.vllm",
+            config_class="llama_stack.providers.remote.inference.vllm.VLLMInferenceAdapterConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.vllm.VLLMProviderDataValidator",
+            description="Remote vLLM inference provider for connecting to vLLM servers.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="tgi",
-                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.remote.inference.tgi",
-                config_class="llama_stack.providers.remote.inference.tgi.TGIImplConfig",
-                description="Text Generation Inference (TGI) provider for HuggingFace model serving.",
-            ),
+            adapter_type="tgi",
+            provider_type="remote::tgi",
+            pip_packages=["huggingface_hub", "aiohttp"],
+            module="llama_stack.providers.remote.inference.tgi",
+            config_class="llama_stack.providers.remote.inference.tgi.TGIImplConfig",
+            description="Text Generation Inference (TGI) provider for HuggingFace model serving.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="hf::serverless",
-                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.remote.inference.tgi",
-                config_class="llama_stack.providers.remote.inference.tgi.InferenceAPIImplConfig",
-                description="HuggingFace Inference API serverless provider for on-demand model inference.",
-            ),
+            adapter_type="hf::serverless",
+            provider_type="remote::hf::serverless",
+            pip_packages=["huggingface_hub", "aiohttp"],
+            module="llama_stack.providers.remote.inference.tgi",
+            config_class="llama_stack.providers.remote.inference.tgi.InferenceAPIImplConfig",
+            description="HuggingFace Inference API serverless provider for on-demand model inference.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="hf::endpoint",
-                pip_packages=["huggingface_hub", "aiohttp"],
-                module="llama_stack.providers.remote.inference.tgi",
-                config_class="llama_stack.providers.remote.inference.tgi.InferenceEndpointImplConfig",
-                description="HuggingFace Inference Endpoints provider for dedicated model serving.",
-            ),
+            provider_type="remote::hf::endpoint",
+            adapter_type="hf::endpoint",
+            pip_packages=["huggingface_hub", "aiohttp"],
+            module="llama_stack.providers.remote.inference.tgi",
+            config_class="llama_stack.providers.remote.inference.tgi.InferenceEndpointImplConfig",
+            description="HuggingFace Inference Endpoints provider for dedicated model serving.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="fireworks",
-                pip_packages=[
-                    "fireworks-ai<=0.17.16",
-                ],
-                module="llama_stack.providers.remote.inference.fireworks",
-                config_class="llama_stack.providers.remote.inference.fireworks.FireworksImplConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.fireworks.FireworksProviderDataValidator",
-                description="Fireworks AI inference provider for Llama models and other AI models on the Fireworks platform.",
-            ),
+            adapter_type="fireworks",
+            provider_type="remote::fireworks",
+            pip_packages=[
+                "fireworks-ai<=0.17.16",
+            ],
+            module="llama_stack.providers.remote.inference.fireworks",
+            config_class="llama_stack.providers.remote.inference.fireworks.FireworksImplConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.fireworks.FireworksProviderDataValidator",
+            description="Fireworks AI inference provider for Llama models and other AI models on the Fireworks platform.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="together",
-                pip_packages=[
-                    "together",
-                ],
-                module="llama_stack.providers.remote.inference.together",
-                config_class="llama_stack.providers.remote.inference.together.TogetherImplConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.together.TogetherProviderDataValidator",
-                description="Together AI inference provider for open-source models and collaborative AI development.",
-            ),
+            adapter_type="together",
+            provider_type="remote::together",
+            pip_packages=[
+                "together",
+            ],
+            module="llama_stack.providers.remote.inference.together",
+            config_class="llama_stack.providers.remote.inference.together.TogetherImplConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.together.TogetherProviderDataValidator",
+            description="Together AI inference provider for open-source models and collaborative AI development.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="bedrock",
-                pip_packages=["boto3"],
-                module="llama_stack.providers.remote.inference.bedrock",
-                config_class="llama_stack.providers.remote.inference.bedrock.BedrockConfig",
-                description="AWS Bedrock inference provider for accessing various AI models through AWS's managed service.",
-            ),
+            adapter_type="bedrock",
+            provider_type="remote::bedrock",
+            pip_packages=["boto3"],
+            module="llama_stack.providers.remote.inference.bedrock",
+            config_class="llama_stack.providers.remote.inference.bedrock.BedrockConfig",
+            description="AWS Bedrock inference provider for accessing various AI models through AWS's managed service.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="databricks",
-                pip_packages=[],
-                module="llama_stack.providers.remote.inference.databricks",
-                config_class="llama_stack.providers.remote.inference.databricks.DatabricksImplConfig",
-                description="Databricks inference provider for running models on Databricks' unified analytics platform.",
-            ),
+            adapter_type="databricks",
+            provider_type="remote::databricks",
+            pip_packages=[],
+            module="llama_stack.providers.remote.inference.databricks",
+            config_class="llama_stack.providers.remote.inference.databricks.DatabricksImplConfig",
+            description="Databricks inference provider for running models on Databricks' unified analytics platform.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="nvidia",
-                pip_packages=[],
-                module="llama_stack.providers.remote.inference.nvidia",
-                config_class="llama_stack.providers.remote.inference.nvidia.NVIDIAConfig",
-                description="NVIDIA inference provider for accessing NVIDIA NIM models and AI services.",
-            ),
+            adapter_type="nvidia",
+            provider_type="remote::nvidia",
+            pip_packages=[],
+            module="llama_stack.providers.remote.inference.nvidia",
+            config_class="llama_stack.providers.remote.inference.nvidia.NVIDIAConfig",
+            description="NVIDIA inference provider for accessing NVIDIA NIM models and AI services.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="runpod",
-                pip_packages=[],
-                module="llama_stack.providers.remote.inference.runpod",
-                config_class="llama_stack.providers.remote.inference.runpod.RunpodImplConfig",
-                description="RunPod inference provider for running models on RunPod's cloud GPU platform.",
-            ),
+            adapter_type="runpod",
+            provider_type="remote::runpod",
+            pip_packages=[],
+            module="llama_stack.providers.remote.inference.runpod",
+            config_class="llama_stack.providers.remote.inference.runpod.RunpodImplConfig",
+            description="RunPod inference provider for running models on RunPod's cloud GPU platform.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="openai",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.openai",
-                config_class="llama_stack.providers.remote.inference.openai.OpenAIConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.openai.config.OpenAIProviderDataValidator",
-                description="OpenAI inference provider for accessing GPT models and other OpenAI services.",
-            ),
+            adapter_type="openai",
+            provider_type="remote::openai",
+            pip_packages=["litellm"],
+            module="llama_stack.providers.remote.inference.openai",
+            config_class="llama_stack.providers.remote.inference.openai.OpenAIConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.openai.config.OpenAIProviderDataValidator",
+            description="OpenAI inference provider for accessing GPT models and other OpenAI services.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="anthropic",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.anthropic",
-                config_class="llama_stack.providers.remote.inference.anthropic.AnthropicConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.anthropic.config.AnthropicProviderDataValidator",
-                description="Anthropic inference provider for accessing Claude models and Anthropic's AI services.",
-            ),
+            adapter_type="anthropic",
+            provider_type="remote::anthropic",
+            pip_packages=["litellm"],
+            module="llama_stack.providers.remote.inference.anthropic",
+            config_class="llama_stack.providers.remote.inference.anthropic.AnthropicConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.anthropic.config.AnthropicProviderDataValidator",
+            description="Anthropic inference provider for accessing Claude models and Anthropic's AI services.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="gemini",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.gemini",
-                config_class="llama_stack.providers.remote.inference.gemini.GeminiConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.gemini.config.GeminiProviderDataValidator",
-                description="Google Gemini inference provider for accessing Gemini models and Google's AI services.",
-            ),
+            adapter_type="gemini",
+            provider_type="remote::gemini",
+            pip_packages=[
+                "litellm",
+            ],
+            module="llama_stack.providers.remote.inference.gemini",
+            config_class="llama_stack.providers.remote.inference.gemini.GeminiConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.gemini.config.GeminiProviderDataValidator",
+            description="Google Gemini inference provider for accessing Gemini models and Google's AI services.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="vertexai",
-                pip_packages=["litellm", "google-cloud-aiplatform"],
-                module="llama_stack.providers.remote.inference.vertexai",
-                config_class="llama_stack.providers.remote.inference.vertexai.VertexAIConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.vertexai.config.VertexAIProviderDataValidator",
-                description="""Google Vertex AI inference provider enables you to use Google's Gemini models through Google Cloud's Vertex AI platform, providing several advantages:
+            adapter_type="vertexai",
+            provider_type="remote::vertexai",
+            pip_packages=[
+                "litellm",
+                "google-cloud-aiplatform",
+            ],
+            module="llama_stack.providers.remote.inference.vertexai",
+            config_class="llama_stack.providers.remote.inference.vertexai.VertexAIConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.vertexai.config.VertexAIProviderDataValidator",
+            description="""Google Vertex AI inference provider enables you to use Google's Gemini models through Google Cloud's Vertex AI platform, providing several advantages:

 • Enterprise-grade security: Uses Google Cloud's security controls and IAM
 • Better integration: Seamless integration with other Google Cloud services
@ -239,76 +228,73 @@ Available Models:
 - vertex_ai/gemini-2.0-flash
 - vertex_ai/gemini-2.5-flash
 - vertex_ai/gemini-2.5-pro""",
-            ),
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="groq",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.groq",
-                config_class="llama_stack.providers.remote.inference.groq.GroqConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.groq.config.GroqProviderDataValidator",
-                description="Groq inference provider for ultra-fast inference using Groq's LPU technology.",
-            ),
+            adapter_type="groq",
+            provider_type="remote::groq",
+            pip_packages=[
+                "litellm",
+            ],
+            module="llama_stack.providers.remote.inference.groq",
+            config_class="llama_stack.providers.remote.inference.groq.GroqConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.groq.config.GroqProviderDataValidator",
+            description="Groq inference provider for ultra-fast inference using Groq's LPU technology.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="llama-openai-compat",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.llama_openai_compat",
-                config_class="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaCompatConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaProviderDataValidator",
-                description="Llama OpenAI-compatible provider for using Llama models with OpenAI API format.",
-            ),
+            adapter_type="llama-openai-compat",
+            provider_type="remote::llama-openai-compat",
+            pip_packages=["litellm"],
+            module="llama_stack.providers.remote.inference.llama_openai_compat",
+            config_class="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaCompatConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaProviderDataValidator",
+            description="Llama OpenAI-compatible provider for using Llama models with OpenAI API format.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="sambanova",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.sambanova",
-                config_class="llama_stack.providers.remote.inference.sambanova.SambaNovaImplConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.sambanova.config.SambaNovaProviderDataValidator",
-                description="SambaNova inference provider for running models on SambaNova's dataflow architecture.",
-            ),
+            adapter_type="sambanova",
+            provider_type="remote::sambanova",
+            pip_packages=[
+                "litellm",
+            ],
+            module="llama_stack.providers.remote.inference.sambanova",
+            config_class="llama_stack.providers.remote.inference.sambanova.SambaNovaImplConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.sambanova.config.SambaNovaProviderDataValidator",
+            description="SambaNova inference provider for running models on SambaNova's dataflow architecture.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="passthrough",
-                pip_packages=[],
-                module="llama_stack.providers.remote.inference.passthrough",
-                config_class="llama_stack.providers.remote.inference.passthrough.PassthroughImplConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.passthrough.PassthroughProviderDataValidator",
-                description="Passthrough inference provider for connecting to any external inference service not directly supported.",
-            ),
+            adapter_type="passthrough",
+            provider_type="remote::passthrough",
+            pip_packages=[],
+            module="llama_stack.providers.remote.inference.passthrough",
+            config_class="llama_stack.providers.remote.inference.passthrough.PassthroughImplConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.passthrough.PassthroughProviderDataValidator",
+            description="Passthrough inference provider for connecting to any external inference service not directly supported.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="watsonx",
-                pip_packages=["ibm_watsonx_ai"],
-                module="llama_stack.providers.remote.inference.watsonx",
-                config_class="llama_stack.providers.remote.inference.watsonx.WatsonXConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.watsonx.WatsonXProviderDataValidator",
-                description="IBM WatsonX inference provider for accessing AI models on IBM's WatsonX platform.",
-            ),
+            adapter_type="watsonx",
+            provider_type="remote::watsonx",
+            pip_packages=["ibm_watsonx_ai"],
+            module="llama_stack.providers.remote.inference.watsonx",
+            config_class="llama_stack.providers.remote.inference.watsonx.WatsonXConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.watsonx.WatsonXProviderDataValidator",
+            description="IBM WatsonX inference provider for accessing AI models on IBM's WatsonX platform.",
        ),
-        remote_provider_spec(
+        RemoteProviderSpec(
            api=Api.inference,
-            adapter=AdapterSpec(
-                adapter_type="azure",
-                pip_packages=["litellm"],
-                module="llama_stack.providers.remote.inference.azure",
-                config_class="llama_stack.providers.remote.inference.azure.AzureConfig",
-                provider_data_validator="llama_stack.providers.remote.inference.azure.config.AzureProviderDataValidator",
-                description="""
+            provider_type="remote::azure",
+            adapter_type="azure",
+            pip_packages=["litellm"],
+            module="llama_stack.providers.remote.inference.azure",
+            config_class="llama_stack.providers.remote.inference.azure.AzureConfig",
+            provider_data_validator="llama_stack.providers.remote.inference.azure.config.AzureProviderDataValidator",
+            description="""
 Azure OpenAI inference provider for accessing GPT models and other Azure services.
 Provider documentation
 https://learn.microsoft.com/en-us/azure/ai-foundry/openai/overview
 """,
-            ),
        ),
    ]