refactor: convert providers to be installed via package

currently providers have a `pip_package` list. Rather than make our own form of python dependency management, we should use `pyproject.toml` files in each provider declaring the dependencies in a more trackable manner. Each provider can then be installed using the already in place `module` field in the ProviderSpec, pointing to the directory the provider lives in we can then simply `uv pip install` this directory as opposed to installing the dependencies one by one Signed-off-by: Charlie Doern <cdoern@redhat.com>
2025-10-05 20:27:35 +00:00 · 2025-07-29 15:18:54 -04:00 · 2025-07-29 15:18:54 -04:00 · 41431d8bdd
commit 41431d8bdd
parent a1301911e4
76 changed files with 1294 additions and 134 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -31,7 +31,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.inference,
            provider_type="inline::meta-reference",
-            pip_packages=META_REFERENCE_DEPS,
            module="llama_stack.providers.inline.inference.meta_reference",
            config_class="llama_stack.providers.inline.inference.meta_reference.MetaReferenceInferenceConfig",
            description="Meta's reference implementation of inference with support for various model formats and optimization techniques.",
@ -39,11 +38,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.inference,
            provider_type="inline::sentence-transformers",
-            # CrossEncoder depends on torchao.quantization
-            pip_packages=[
-                "torch torchvision torchao>=0.12.0 --extra-index-url https://download.pytorch.org/whl/cpu",
-                "sentence-transformers --no-deps",
-            ],
            module="llama_stack.providers.inline.inference.sentence_transformers",
            config_class="llama_stack.providers.inline.inference.sentence_transformers.config.SentenceTransformersInferenceConfig",
            description="Sentence Transformers inference provider for text embeddings and similarity search.",
@ -52,9 +46,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="cerebras",
            provider_type="remote::cerebras",
-            pip_packages=[
-                "cerebras_cloud_sdk",
-            ],
            module="llama_stack.providers.remote.inference.cerebras",
            config_class="llama_stack.providers.remote.inference.cerebras.CerebrasImplConfig",
            description="Cerebras inference provider for running models on Cerebras Cloud platform.",
@ -63,7 +54,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="ollama",
            provider_type="remote::ollama",
-            pip_packages=["ollama", "aiohttp", "h11>=0.16.0"],
            config_class="llama_stack.providers.remote.inference.ollama.OllamaImplConfig",
            module="llama_stack.providers.remote.inference.ollama",
            description="Ollama inference provider for running local models through the Ollama runtime.",
@ -72,7 +62,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="vllm",
            provider_type="remote::vllm",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.vllm",
            config_class="llama_stack.providers.remote.inference.vllm.VLLMInferenceAdapterConfig",
            provider_data_validator="llama_stack.providers.remote.inference.vllm.VLLMProviderDataValidator",
@ -82,7 +71,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="tgi",
            provider_type="remote::tgi",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.TGIImplConfig",
            description="Text Generation Inference (TGI) provider for HuggingFace model serving.",
@ -91,7 +79,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="hf::serverless",
            provider_type="remote::hf::serverless",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.InferenceAPIImplConfig",
            description="HuggingFace Inference API serverless provider for on-demand model inference.",
@ -100,7 +87,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            provider_type="remote::hf::endpoint",
            adapter_type="hf::endpoint",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.InferenceEndpointImplConfig",
            description="HuggingFace Inference Endpoints provider for dedicated model serving.",
@ -109,9 +95,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="fireworks",
            provider_type="remote::fireworks",
-            pip_packages=[
-                "fireworks-ai<=0.17.16",
-            ],
            module="llama_stack.providers.remote.inference.fireworks",
            config_class="llama_stack.providers.remote.inference.fireworks.FireworksImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.fireworks.FireworksProviderDataValidator",
@ -121,9 +104,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="together",
            provider_type="remote::together",
-            pip_packages=[
-                "together",
-            ],
            module="llama_stack.providers.remote.inference.together",
            config_class="llama_stack.providers.remote.inference.together.TogetherImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.together.TogetherProviderDataValidator",
@ -133,7 +113,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="bedrock",
            provider_type="remote::bedrock",
-            pip_packages=["boto3"],
            module="llama_stack.providers.remote.inference.bedrock",
            config_class="llama_stack.providers.remote.inference.bedrock.BedrockConfig",
            description="AWS Bedrock inference provider for accessing various AI models through AWS's managed service.",
@ -142,7 +121,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="databricks",
            provider_type="remote::databricks",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.databricks",
            config_class="llama_stack.providers.remote.inference.databricks.DatabricksImplConfig",
            description="Databricks inference provider for running models on Databricks' unified analytics platform.",
@ -151,7 +129,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="nvidia",
            provider_type="remote::nvidia",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.nvidia",
            config_class="llama_stack.providers.remote.inference.nvidia.NVIDIAConfig",
            description="NVIDIA inference provider for accessing NVIDIA NIM models and AI services.",
@ -160,7 +137,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="runpod",
            provider_type="remote::runpod",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.runpod",
            config_class="llama_stack.providers.remote.inference.runpod.RunpodImplConfig",
            description="RunPod inference provider for running models on RunPod's cloud GPU platform.",
@ -169,7 +145,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="openai",
            provider_type="remote::openai",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.openai",
            config_class="llama_stack.providers.remote.inference.openai.OpenAIConfig",
            provider_data_validator="llama_stack.providers.remote.inference.openai.config.OpenAIProviderDataValidator",
@ -179,7 +154,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="anthropic",
            provider_type="remote::anthropic",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.anthropic",
            config_class="llama_stack.providers.remote.inference.anthropic.AnthropicConfig",
            provider_data_validator="llama_stack.providers.remote.inference.anthropic.config.AnthropicProviderDataValidator",
@ -189,9 +163,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="gemini",
            provider_type="remote::gemini",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.gemini",
            config_class="llama_stack.providers.remote.inference.gemini.GeminiConfig",
            provider_data_validator="llama_stack.providers.remote.inference.gemini.config.GeminiProviderDataValidator",
@ -201,10 +172,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="vertexai",
            provider_type="remote::vertexai",
-            pip_packages=[
-                "litellm",
-                "google-cloud-aiplatform",
-            ],
            module="llama_stack.providers.remote.inference.vertexai",
            config_class="llama_stack.providers.remote.inference.vertexai.VertexAIConfig",
            provider_data_validator="llama_stack.providers.remote.inference.vertexai.config.VertexAIProviderDataValidator",
@ -233,9 +200,6 @@ Available Models:
            api=Api.inference,
            adapter_type="groq",
            provider_type="remote::groq",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.groq",
            config_class="llama_stack.providers.remote.inference.groq.GroqConfig",
            provider_data_validator="llama_stack.providers.remote.inference.groq.config.GroqProviderDataValidator",
@ -245,7 +209,6 @@ Available Models:
            api=Api.inference,
            adapter_type="llama-openai-compat",
            provider_type="remote::llama-openai-compat",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.llama_openai_compat",
            config_class="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaCompatConfig",
            provider_data_validator="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaProviderDataValidator",
@ -255,9 +218,6 @@ Available Models:
            api=Api.inference,
            adapter_type="sambanova",
            provider_type="remote::sambanova",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.sambanova",
            config_class="llama_stack.providers.remote.inference.sambanova.SambaNovaImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.sambanova.config.SambaNovaProviderDataValidator",
@ -267,7 +227,6 @@ Available Models:
            api=Api.inference,
            adapter_type="passthrough",
            provider_type="remote::passthrough",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.passthrough",
            config_class="llama_stack.providers.remote.inference.passthrough.PassthroughImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.passthrough.PassthroughProviderDataValidator",
@ -277,7 +236,6 @@ Available Models:
            api=Api.inference,
            adapter_type="watsonx",
            provider_type="remote::watsonx",
-            pip_packages=["ibm_watsonx_ai"],
            module="llama_stack.providers.remote.inference.watsonx",
            config_class="llama_stack.providers.remote.inference.watsonx.WatsonXConfig",
            provider_data_validator="llama_stack.providers.remote.inference.watsonx.WatsonXProviderDataValidator",
@ -287,7 +245,6 @@ Available Models:
            api=Api.inference,
            provider_type="remote::azure",
            adapter_type="azure",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.azure",
            config_class="llama_stack.providers.remote.inference.azure.AzureConfig",
            provider_data_validator="llama_stack.providers.remote.inference.azure.config.AzureProviderDataValidator",