refactor: convert providers to be installed via package

currently providers have a `pip_package` list. Rather than make our own form of python dependency management, we should use `pyproject.toml` files in each provider declaring the dependencies in a more trackable manner. Each provider can then be installed using the already in place `module` field in the ProviderSpec, pointing to the directory the provider lives in we can then simply `uv pip install` this directory as opposed to installing the dependencies one by one Signed-off-by: Charlie Doern <cdoern@redhat.com>
2025-10-08 21:04:39 +00:00 · 2025-07-29 15:18:54 -04:00 · 2025-07-29 15:18:54 -04:00 · 41431d8bdd
commit 41431d8bdd
parent a1301911e4
76 changed files with 1294 additions and 134 deletions
--- a/llama_stack/providers/registry/agents.py
+++ b/llama_stack/providers/registry/agents.py
@ -10,7 +10,6 @@ from llama_stack.providers.datatypes import (
    InlineProviderSpec,
    ProviderSpec,
 )
-from llama_stack.providers.utils.kvstore import kvstore_dependencies


 def available_providers() -> list[ProviderSpec]:
@ -18,14 +17,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.agents,
            provider_type="inline::meta-reference",
-            pip_packages=[
-                "matplotlib",
-                "pillow",
-                "pandas",
-                "scikit-learn",
-                "mcp>=1.8.1",
-            ]
-            + kvstore_dependencies(),  # TODO make this dynamic based on the kvstore config
            module="llama_stack.providers.inline.agents.meta_reference",
            config_class="llama_stack.providers.inline.agents.meta_reference.MetaReferenceAgentsImplConfig",
            api_dependencies=[
--- a/llama_stack/providers/registry/batches.py
+++ b/llama_stack/providers/registry/batches.py
@ -13,7 +13,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.batches,
            provider_type="inline::reference",
-            pip_packages=[],
            module="llama_stack.providers.inline.batches.reference",
            config_class="llama_stack.providers.inline.batches.reference.config.ReferenceBatchesImplConfig",
            api_dependencies=[
--- a/llama_stack/providers/registry/datasetio.py
+++ b/llama_stack/providers/registry/datasetio.py
@ -18,7 +18,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.datasetio,
            provider_type="inline::localfs",
-            pip_packages=["pandas"],
            module="llama_stack.providers.inline.datasetio.localfs",
            config_class="llama_stack.providers.inline.datasetio.localfs.LocalFSDatasetIOConfig",
            api_dependencies=[],
@ -28,9 +27,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.datasetio,
            adapter_type="huggingface",
            provider_type="remote::huggingface",
-            pip_packages=[
-                "datasets>=4.0.0",
-            ],
            module="llama_stack.providers.remote.datasetio.huggingface",
            config_class="llama_stack.providers.remote.datasetio.huggingface.HuggingfaceDatasetIOConfig",
            description="HuggingFace datasets provider for accessing and managing datasets from the HuggingFace Hub.",
@ -41,9 +37,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::nvidia",
            module="llama_stack.providers.remote.datasetio.nvidia",
            config_class="llama_stack.providers.remote.datasetio.nvidia.NvidiaDatasetIOConfig",
-            pip_packages=[
-                "datasets>=4.0.0",
-            ],
            description="NVIDIA's dataset I/O provider for accessing datasets from NVIDIA's data platform.",
        ),
    ]
--- a/llama_stack/providers/registry/eval.py
+++ b/llama_stack/providers/registry/eval.py
@ -13,7 +13,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.eval,
            provider_type="inline::meta-reference",
-            pip_packages=["tree_sitter", "pythainlp", "langdetect", "emoji", "nltk"],
            module="llama_stack.providers.inline.eval.meta_reference",
            config_class="llama_stack.providers.inline.eval.meta_reference.MetaReferenceEvalConfig",
            api_dependencies=[
@ -28,9 +27,6 @@ def available_providers() -> list[ProviderSpec]:
        RemoteProviderSpec(
            api=Api.eval,
            adapter_type="nvidia",
-            pip_packages=[
-                "requests",
-            ],
            provider_type="remote::nvidia",
            module="llama_stack.providers.remote.eval.nvidia",
            config_class="llama_stack.providers.remote.eval.nvidia.NVIDIAEvalConfig",
--- a/llama_stack/providers/registry/files.py
+++ b/llama_stack/providers/registry/files.py
@ -14,7 +14,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.files,
            provider_type="inline::localfs",
            # TODO: make this dynamic according to the sql store type
-            pip_packages=sql_store_pip_packages,
            module="llama_stack.providers.inline.files.localfs",
            config_class="llama_stack.providers.inline.files.localfs.config.LocalfsFilesImplConfig",
            description="Local filesystem-based file storage provider for managing files and documents locally.",
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -31,7 +31,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.inference,
            provider_type="inline::meta-reference",
-            pip_packages=META_REFERENCE_DEPS,
            module="llama_stack.providers.inline.inference.meta_reference",
            config_class="llama_stack.providers.inline.inference.meta_reference.MetaReferenceInferenceConfig",
            description="Meta's reference implementation of inference with support for various model formats and optimization techniques.",
@ -39,11 +38,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.inference,
            provider_type="inline::sentence-transformers",
-            # CrossEncoder depends on torchao.quantization
-            pip_packages=[
-                "torch torchvision torchao>=0.12.0 --extra-index-url https://download.pytorch.org/whl/cpu",
-                "sentence-transformers --no-deps",
-            ],
            module="llama_stack.providers.inline.inference.sentence_transformers",
            config_class="llama_stack.providers.inline.inference.sentence_transformers.config.SentenceTransformersInferenceConfig",
            description="Sentence Transformers inference provider for text embeddings and similarity search.",
@ -52,9 +46,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="cerebras",
            provider_type="remote::cerebras",
-            pip_packages=[
-                "cerebras_cloud_sdk",
-            ],
            module="llama_stack.providers.remote.inference.cerebras",
            config_class="llama_stack.providers.remote.inference.cerebras.CerebrasImplConfig",
            description="Cerebras inference provider for running models on Cerebras Cloud platform.",
@ -63,7 +54,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="ollama",
            provider_type="remote::ollama",
-            pip_packages=["ollama", "aiohttp", "h11>=0.16.0"],
            config_class="llama_stack.providers.remote.inference.ollama.OllamaImplConfig",
            module="llama_stack.providers.remote.inference.ollama",
            description="Ollama inference provider for running local models through the Ollama runtime.",
@ -72,7 +62,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="vllm",
            provider_type="remote::vllm",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.vllm",
            config_class="llama_stack.providers.remote.inference.vllm.VLLMInferenceAdapterConfig",
            provider_data_validator="llama_stack.providers.remote.inference.vllm.VLLMProviderDataValidator",
@ -82,7 +71,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="tgi",
            provider_type="remote::tgi",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.TGIImplConfig",
            description="Text Generation Inference (TGI) provider for HuggingFace model serving.",
@ -91,7 +79,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="hf::serverless",
            provider_type="remote::hf::serverless",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.InferenceAPIImplConfig",
            description="HuggingFace Inference API serverless provider for on-demand model inference.",
@ -100,7 +87,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            provider_type="remote::hf::endpoint",
            adapter_type="hf::endpoint",
-            pip_packages=["huggingface_hub", "aiohttp"],
            module="llama_stack.providers.remote.inference.tgi",
            config_class="llama_stack.providers.remote.inference.tgi.InferenceEndpointImplConfig",
            description="HuggingFace Inference Endpoints provider for dedicated model serving.",
@ -109,9 +95,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="fireworks",
            provider_type="remote::fireworks",
-            pip_packages=[
-                "fireworks-ai<=0.17.16",
-            ],
            module="llama_stack.providers.remote.inference.fireworks",
            config_class="llama_stack.providers.remote.inference.fireworks.FireworksImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.fireworks.FireworksProviderDataValidator",
@ -121,9 +104,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="together",
            provider_type="remote::together",
-            pip_packages=[
-                "together",
-            ],
            module="llama_stack.providers.remote.inference.together",
            config_class="llama_stack.providers.remote.inference.together.TogetherImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.together.TogetherProviderDataValidator",
@ -133,7 +113,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="bedrock",
            provider_type="remote::bedrock",
-            pip_packages=["boto3"],
            module="llama_stack.providers.remote.inference.bedrock",
            config_class="llama_stack.providers.remote.inference.bedrock.BedrockConfig",
            description="AWS Bedrock inference provider for accessing various AI models through AWS's managed service.",
@ -142,7 +121,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="databricks",
            provider_type="remote::databricks",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.databricks",
            config_class="llama_stack.providers.remote.inference.databricks.DatabricksImplConfig",
            description="Databricks inference provider for running models on Databricks' unified analytics platform.",
@ -151,7 +129,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="nvidia",
            provider_type="remote::nvidia",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.nvidia",
            config_class="llama_stack.providers.remote.inference.nvidia.NVIDIAConfig",
            description="NVIDIA inference provider for accessing NVIDIA NIM models and AI services.",
@ -160,7 +137,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="runpod",
            provider_type="remote::runpod",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.runpod",
            config_class="llama_stack.providers.remote.inference.runpod.RunpodImplConfig",
            description="RunPod inference provider for running models on RunPod's cloud GPU platform.",
@ -169,7 +145,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="openai",
            provider_type="remote::openai",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.openai",
            config_class="llama_stack.providers.remote.inference.openai.OpenAIConfig",
            provider_data_validator="llama_stack.providers.remote.inference.openai.config.OpenAIProviderDataValidator",
@ -179,7 +154,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="anthropic",
            provider_type="remote::anthropic",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.anthropic",
            config_class="llama_stack.providers.remote.inference.anthropic.AnthropicConfig",
            provider_data_validator="llama_stack.providers.remote.inference.anthropic.config.AnthropicProviderDataValidator",
@ -189,9 +163,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="gemini",
            provider_type="remote::gemini",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.gemini",
            config_class="llama_stack.providers.remote.inference.gemini.GeminiConfig",
            provider_data_validator="llama_stack.providers.remote.inference.gemini.config.GeminiProviderDataValidator",
@ -201,10 +172,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.inference,
            adapter_type="vertexai",
            provider_type="remote::vertexai",
-            pip_packages=[
-                "litellm",
-                "google-cloud-aiplatform",
-            ],
            module="llama_stack.providers.remote.inference.vertexai",
            config_class="llama_stack.providers.remote.inference.vertexai.VertexAIConfig",
            provider_data_validator="llama_stack.providers.remote.inference.vertexai.config.VertexAIProviderDataValidator",
@ -233,9 +200,6 @@ Available Models:
            api=Api.inference,
            adapter_type="groq",
            provider_type="remote::groq",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.groq",
            config_class="llama_stack.providers.remote.inference.groq.GroqConfig",
            provider_data_validator="llama_stack.providers.remote.inference.groq.config.GroqProviderDataValidator",
@ -245,7 +209,6 @@ Available Models:
            api=Api.inference,
            adapter_type="llama-openai-compat",
            provider_type="remote::llama-openai-compat",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.llama_openai_compat",
            config_class="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaCompatConfig",
            provider_data_validator="llama_stack.providers.remote.inference.llama_openai_compat.config.LlamaProviderDataValidator",
@ -255,9 +218,6 @@ Available Models:
            api=Api.inference,
            adapter_type="sambanova",
            provider_type="remote::sambanova",
-            pip_packages=[
-                "litellm",
-            ],
            module="llama_stack.providers.remote.inference.sambanova",
            config_class="llama_stack.providers.remote.inference.sambanova.SambaNovaImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.sambanova.config.SambaNovaProviderDataValidator",
@ -267,7 +227,6 @@ Available Models:
            api=Api.inference,
            adapter_type="passthrough",
            provider_type="remote::passthrough",
-            pip_packages=[],
            module="llama_stack.providers.remote.inference.passthrough",
            config_class="llama_stack.providers.remote.inference.passthrough.PassthroughImplConfig",
            provider_data_validator="llama_stack.providers.remote.inference.passthrough.PassthroughProviderDataValidator",
@ -277,7 +236,6 @@ Available Models:
            api=Api.inference,
            adapter_type="watsonx",
            provider_type="remote::watsonx",
-            pip_packages=["ibm_watsonx_ai"],
            module="llama_stack.providers.remote.inference.watsonx",
            config_class="llama_stack.providers.remote.inference.watsonx.WatsonXConfig",
            provider_data_validator="llama_stack.providers.remote.inference.watsonx.WatsonXProviderDataValidator",
@ -287,7 +245,6 @@ Available Models:
            api=Api.inference,
            provider_type="remote::azure",
            adapter_type="azure",
-            pip_packages=["litellm"],
            module="llama_stack.providers.remote.inference.azure",
            config_class="llama_stack.providers.remote.inference.azure.AzureConfig",
            provider_data_validator="llama_stack.providers.remote.inference.azure.config.AzureProviderDataValidator",
--- a/llama_stack/providers/registry/post_training.py
+++ b/llama_stack/providers/registry/post_training.py
@ -5,15 +5,12 @@
 # the root directory of this source tree.


-from typing import cast
-
 from llama_stack.providers.datatypes import Api, InlineProviderSpec, ProviderSpec, RemoteProviderSpec

 # We provide two versions of these providers so that distributions can package the appropriate version of torch.
 # The CPU version is used for distributions that don't have GPU support -- they result in smaller container images.
 torchtune_def = dict(
    api=Api.post_training,
-    pip_packages=["numpy"],
    module="llama_stack.providers.inline.post_training.torchtune",
    config_class="llama_stack.providers.inline.post_training.torchtune.TorchtunePostTrainingConfig",
    api_dependencies=[
@ -27,28 +24,32 @@ torchtune_def = dict(
 def available_providers() -> list[ProviderSpec]:
    return [
        InlineProviderSpec(
-            **{  # type: ignore
-                **torchtune_def,
-                "provider_type": "inline::torchtune-cpu",
-                "pip_packages": (
-                    cast(list[str], torchtune_def["pip_packages"])
-                    + ["torch torchtune>=0.5.0 torchao>=0.12.0 --extra-index-url https://download.pytorch.org/whl/cpu"]
-                ),
-            },
+            api=Api.post_training,
+            provider_type="inline::torchtune-cpu",
+            module="llama_stack.providers.inline.post_training.torchtune",
+            config_class="llama_stack.providers.inline.post_training.torchtune.TorchtunePostTrainingConfig",
+            api_dependencies=[
+                Api.datasetio,
+                Api.datasets,
+            ],
+            description="TorchTune-based post-training provider for fine-tuning and optimizing models using Meta's TorchTune framework (CPU).",
+            package_extras=["cpu"],
        ),
        InlineProviderSpec(
-            **{  # type: ignore
-                **torchtune_def,
-                "provider_type": "inline::torchtune-gpu",
-                "pip_packages": (
-                    cast(list[str], torchtune_def["pip_packages"]) + ["torch torchtune>=0.5.0 torchao>=0.12.0"]
-                ),
-            },
+            api=Api.post_training,
+            provider_type="inline::torchtune-gpu",
+            module="llama_stack.providers.inline.post_training.torchtune",
+            config_class="llama_stack.providers.inline.post_training.torchtune.TorchtunePostTrainingConfig",
+            api_dependencies=[
+                Api.datasetio,
+                Api.datasets,
+            ],
+            description="TorchTune-based post-training provider for fine-tuning and optimizing models using Meta's TorchTune framework (GPU).",
+            package_extras=["gpu"],
        ),
        InlineProviderSpec(
            api=Api.post_training,
            provider_type="inline::huggingface-gpu",
-            pip_packages=["trl", "transformers", "peft", "datasets>=4.0.0", "torch"],
            module="llama_stack.providers.inline.post_training.huggingface",
            config_class="llama_stack.providers.inline.post_training.huggingface.HuggingFacePostTrainingConfig",
            api_dependencies=[
@ -61,7 +62,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.post_training,
            adapter_type="nvidia",
            provider_type="remote::nvidia",
-            pip_packages=["requests", "aiohttp"],
            module="llama_stack.providers.remote.post_training.nvidia",
            config_class="llama_stack.providers.remote.post_training.nvidia.NvidiaPostTrainingConfig",
            description="NVIDIA's post-training provider for fine-tuning models on NVIDIA's platform.",
--- a/llama_stack/providers/registry/safety.py
+++ b/llama_stack/providers/registry/safety.py
@ -18,10 +18,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.safety,
            provider_type="inline::prompt-guard",
-            pip_packages=[
-                "transformers[accelerate]",
-                "torch --index-url https://download.pytorch.org/whl/cpu",
-            ],
            module="llama_stack.providers.inline.safety.prompt_guard",
            config_class="llama_stack.providers.inline.safety.prompt_guard.PromptGuardConfig",
            description="Prompt Guard safety provider for detecting and filtering unsafe prompts and content.",
@ -29,7 +25,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.safety,
            provider_type="inline::llama-guard",
-            pip_packages=[],
            module="llama_stack.providers.inline.safety.llama_guard",
            config_class="llama_stack.providers.inline.safety.llama_guard.LlamaGuardConfig",
            api_dependencies=[
@ -40,9 +35,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.safety,
            provider_type="inline::code-scanner",
-            pip_packages=[
-                "codeshield",
-            ],
            module="llama_stack.providers.inline.safety.code_scanner",
            config_class="llama_stack.providers.inline.safety.code_scanner.CodeScannerConfig",
            description="Code Scanner safety provider for detecting security vulnerabilities and unsafe code patterns.",
@ -51,7 +43,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.safety,
            adapter_type="bedrock",
            provider_type="remote::bedrock",
-            pip_packages=["boto3"],
            module="llama_stack.providers.remote.safety.bedrock",
            config_class="llama_stack.providers.remote.safety.bedrock.BedrockSafetyConfig",
            description="AWS Bedrock safety provider for content moderation using AWS's safety services.",
@ -60,7 +51,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.safety,
            adapter_type="nvidia",
            provider_type="remote::nvidia",
-            pip_packages=["requests"],
            module="llama_stack.providers.remote.safety.nvidia",
            config_class="llama_stack.providers.remote.safety.nvidia.NVIDIASafetyConfig",
            description="NVIDIA's safety provider for content moderation and safety filtering.",
@ -69,7 +59,6 @@ def available_providers() -> list[ProviderSpec]:
            api=Api.safety,
            adapter_type="sambanova",
            provider_type="remote::sambanova",
-            pip_packages=["litellm", "requests"],
            module="llama_stack.providers.remote.safety.sambanova",
            config_class="llama_stack.providers.remote.safety.sambanova.SambaNovaSafetyConfig",
            provider_data_validator="llama_stack.providers.remote.safety.sambanova.config.SambaNovaProviderDataValidator",
--- a/llama_stack/providers/registry/scoring.py
+++ b/llama_stack/providers/registry/scoring.py
@ -13,7 +13,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.scoring,
            provider_type="inline::basic",
-            pip_packages=["requests"],
            module="llama_stack.providers.inline.scoring.basic",
            config_class="llama_stack.providers.inline.scoring.basic.BasicScoringConfig",
            api_dependencies=[
@ -25,7 +24,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.scoring,
            provider_type="inline::llm-as-judge",
-            pip_packages=[],
            module="llama_stack.providers.inline.scoring.llm_as_judge",
            config_class="llama_stack.providers.inline.scoring.llm_as_judge.LlmAsJudgeScoringConfig",
            api_dependencies=[
@ -38,7 +36,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.scoring,
            provider_type="inline::braintrust",
-            pip_packages=["autoevals"],
            module="llama_stack.providers.inline.scoring.braintrust",
            config_class="llama_stack.providers.inline.scoring.braintrust.BraintrustScoringConfig",
            api_dependencies=[
--- a/llama_stack/providers/registry/telemetry.py
+++ b/llama_stack/providers/registry/telemetry.py
@ -17,10 +17,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.telemetry,
            provider_type="inline::meta-reference",
-            pip_packages=[
-                "opentelemetry-sdk",
-                "opentelemetry-exporter-otlp-proto-http",
-            ],
            optional_api_dependencies=[Api.datasetio],
            module="llama_stack.providers.inline.telemetry.meta_reference",
            config_class="llama_stack.providers.inline.telemetry.meta_reference.config.TelemetryConfig",
--- a/llama_stack/providers/registry/tool_runtime.py
+++ b/llama_stack/providers/registry/tool_runtime.py
@ -18,17 +18,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.tool_runtime,
            provider_type="inline::rag-runtime",
-            pip_packages=[
-                "chardet",
-                "pypdf",
-                "tqdm",
-                "numpy",
-                "scikit-learn",
-                "scipy",
-                "nltk",
-                "sentencepiece",
-                "transformers",
-            ],
            module="llama_stack.providers.inline.tool_runtime.rag",
            config_class="llama_stack.providers.inline.tool_runtime.rag.config.RagToolRuntimeConfig",
            api_dependencies=[Api.vector_io, Api.inference, Api.files],
@ -40,7 +29,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::brave-search",
            module="llama_stack.providers.remote.tool_runtime.brave_search",
            config_class="llama_stack.providers.remote.tool_runtime.brave_search.config.BraveSearchToolConfig",
-            pip_packages=["requests"],
            provider_data_validator="llama_stack.providers.remote.tool_runtime.brave_search.BraveSearchToolProviderDataValidator",
            description="Brave Search tool for web search capabilities with privacy-focused results.",
        ),
@ -50,7 +38,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::bing-search",
            module="llama_stack.providers.remote.tool_runtime.bing_search",
            config_class="llama_stack.providers.remote.tool_runtime.bing_search.config.BingSearchToolConfig",
-            pip_packages=["requests"],
            provider_data_validator="llama_stack.providers.remote.tool_runtime.bing_search.BingSearchToolProviderDataValidator",
            description="Bing Search tool for web search capabilities using Microsoft's search engine.",
        ),
@ -60,7 +47,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::tavily-search",
            module="llama_stack.providers.remote.tool_runtime.tavily_search",
            config_class="llama_stack.providers.remote.tool_runtime.tavily_search.config.TavilySearchToolConfig",
-            pip_packages=["requests"],
            provider_data_validator="llama_stack.providers.remote.tool_runtime.tavily_search.TavilySearchToolProviderDataValidator",
            description="Tavily Search tool for AI-optimized web search with structured results.",
        ),
@ -70,7 +56,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::wolfram-alpha",
            module="llama_stack.providers.remote.tool_runtime.wolfram_alpha",
            config_class="llama_stack.providers.remote.tool_runtime.wolfram_alpha.config.WolframAlphaToolConfig",
-            pip_packages=["requests"],
            provider_data_validator="llama_stack.providers.remote.tool_runtime.wolfram_alpha.WolframAlphaToolProviderDataValidator",
            description="Wolfram Alpha tool for computational knowledge and mathematical calculations.",
        ),
@ -80,7 +65,6 @@ def available_providers() -> list[ProviderSpec]:
            provider_type="remote::model-context-protocol",
            module="llama_stack.providers.remote.tool_runtime.model_context_protocol",
            config_class="llama_stack.providers.remote.tool_runtime.model_context_protocol.config.MCPProviderConfig",
-            pip_packages=["mcp>=1.8.1"],
            provider_data_validator="llama_stack.providers.remote.tool_runtime.model_context_protocol.config.MCPProviderDataValidator",
            description="Model Context Protocol (MCP) tool for standardized tool calling and context management.",
        ),
--- a/llama_stack/providers/registry/vector_io.py
+++ b/llama_stack/providers/registry/vector_io.py
@ -18,7 +18,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::meta-reference",
-            pip_packages=["faiss-cpu"],
            module="llama_stack.providers.inline.vector_io.faiss",
            config_class="llama_stack.providers.inline.vector_io.faiss.FaissVectorIOConfig",
            deprecation_warning="Please use the `inline::faiss` provider instead.",
@ -29,7 +28,6 @@ def available_providers() -> list[ProviderSpec]:
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::faiss",
-            pip_packages=["faiss-cpu"],
            module="llama_stack.providers.inline.vector_io.faiss",
            config_class="llama_stack.providers.inline.vector_io.faiss.FaissVectorIOConfig",
            api_dependencies=[Api.inference],
@ -82,7 +80,6 @@ more details about Faiss in general.
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::sqlite-vec",
-            pip_packages=["sqlite-vec"],
            module="llama_stack.providers.inline.vector_io.sqlite_vec",
            config_class="llama_stack.providers.inline.vector_io.sqlite_vec.SQLiteVectorIOConfig",
            api_dependencies=[Api.inference],
@ -289,7 +286,6 @@ See [sqlite-vec's GitHub repo](https://github.com/asg017/sqlite-vec/tree/main) f
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::sqlite_vec",
-            pip_packages=["sqlite-vec"],
            module="llama_stack.providers.inline.vector_io.sqlite_vec",
            config_class="llama_stack.providers.inline.vector_io.sqlite_vec.SQLiteVectorIOConfig",
            deprecation_warning="Please use the `inline::sqlite-vec` provider (notice the hyphen instead of underscore) instead.",
@ -303,7 +299,6 @@ Please refer to the sqlite-vec provider documentation.
            api=Api.vector_io,
            adapter_type="chromadb",
            provider_type="remote::chromadb",
-            pip_packages=["chromadb-client"],
            module="llama_stack.providers.remote.vector_io.chroma",
            config_class="llama_stack.providers.remote.vector_io.chroma.ChromaVectorIOConfig",
            api_dependencies=[Api.inference],
@ -345,7 +340,6 @@ See [Chroma's documentation](https://docs.trychroma.com/docs/overview/introducti
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::chromadb",
-            pip_packages=["chromadb"],
            module="llama_stack.providers.inline.vector_io.chroma",
            config_class="llama_stack.providers.inline.vector_io.chroma.ChromaVectorIOConfig",
            api_dependencies=[Api.inference],
@ -389,7 +383,6 @@ See [Chroma's documentation](https://docs.trychroma.com/docs/overview/introducti
            api=Api.vector_io,
            adapter_type="pgvector",
            provider_type="remote::pgvector",
-            pip_packages=["psycopg2-binary"],
            module="llama_stack.providers.remote.vector_io.pgvector",
            config_class="llama_stack.providers.remote.vector_io.pgvector.PGVectorVectorIOConfig",
            api_dependencies=[Api.inference],
@ -500,7 +493,6 @@ See [PGVector's documentation](https://github.com/pgvector/pgvector) for more de
            api=Api.vector_io,
            adapter_type="weaviate",
            provider_type="remote::weaviate",
-            pip_packages=["weaviate-client"],
            module="llama_stack.providers.remote.vector_io.weaviate",
            config_class="llama_stack.providers.remote.vector_io.weaviate.WeaviateVectorIOConfig",
            provider_data_validator="llama_stack.providers.remote.vector_io.weaviate.WeaviateRequestProviderData",
@ -541,7 +533,6 @@ See [Weaviate's documentation](https://weaviate.io/developers/weaviate) for more
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::qdrant",
-            pip_packages=["qdrant-client"],
            module="llama_stack.providers.inline.vector_io.qdrant",
            config_class="llama_stack.providers.inline.vector_io.qdrant.QdrantVectorIOConfig",
            api_dependencies=[Api.inference],
@ -594,7 +585,6 @@ See the [Qdrant documentation](https://qdrant.tech/documentation/) for more deta
            api=Api.vector_io,
            adapter_type="qdrant",
            provider_type="remote::qdrant",
-            pip_packages=["qdrant-client"],
            module="llama_stack.providers.remote.vector_io.qdrant",
            config_class="llama_stack.providers.remote.vector_io.qdrant.QdrantVectorIOConfig",
            api_dependencies=[Api.inference],
@ -607,7 +597,6 @@ Please refer to the inline provider documentation.
            api=Api.vector_io,
            adapter_type="milvus",
            provider_type="remote::milvus",
-            pip_packages=["pymilvus>=2.4.10"],
            module="llama_stack.providers.remote.vector_io.milvus",
            config_class="llama_stack.providers.remote.vector_io.milvus.MilvusVectorIOConfig",
            api_dependencies=[Api.inference],
@ -813,7 +802,6 @@ For more details on TLS configuration, refer to the [TLS setup guide](https://mi
        InlineProviderSpec(
            api=Api.vector_io,
            provider_type="inline::milvus",
-            pip_packages=["pymilvus[milvus-lite]>=2.4.10"],
            module="llama_stack.providers.inline.vector_io.milvus",
            config_class="llama_stack.providers.inline.vector_io.milvus.MilvusVectorIOConfig",
            api_dependencies=[Api.inference],