[memory refactor][5/n] Migrate all vector_io providers (#835)

See https://github.com/meta-llama/llama-stack/issues/827 for the broader design. This PR finishes off all the stragglers and migrates everything to the new naming.
2025-01-22 10:17:59 -08:00 · 2025-01-22 10:17:59 -08:00 · c9e5578151
commit c9e5578151
parent 63f37f9b7c
78 changed files with 504 additions and 623 deletions
--- a/llama_stack/templates/bedrock/bedrock.py
+++ b/llama_stack/templates/bedrock/bedrock.py
@ -10,7 +10,7 @@ from llama_models.sku_list import all_registered_models

 from llama_stack.apis.models import ModelInput
 from llama_stack.distribution.datatypes import Provider, ToolGroupInput
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.bedrock.bedrock import MODEL_ALIASES
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -18,7 +18,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::bedrock"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["remote::bedrock"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -34,7 +34,7 @@ def get_distribution_template() -> DistributionTemplate:
        ],
    }
    name = "bedrock"
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -78,7 +78,7 @@ def get_distribution_template() -> DistributionTemplate:
        run_configs={
            "run.yaml": RunConfigSettings(
                provider_overrides={
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=default_models,
                default_tool_groups=default_tool_groups,
--- a/llama_stack/templates/bedrock/build.yaml
+++ b/llama_stack/templates/bedrock/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::bedrock
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/bedrock/run.yaml
+++ b/llama_stack/templates/bedrock/run.yaml
@ -5,17 +5,17 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: bedrock
    provider_type: remote::bedrock
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -104,7 +104,7 @@ models:
  provider_model_id: meta.llama3-1-405b-instruct-v1:0
  model_type: llm
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/cerebras/build.yaml
+++ b/llama_stack/templates/cerebras/build.yaml
@ -6,7 +6,7 @@ distribution_spec:
    - remote::cerebras
    safety:
    - inline::llama-guard
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/cerebras/cerebras.py
+++ b/llama_stack/templates/cerebras/cerebras.py
@ -13,7 +13,7 @@ from llama_stack.distribution.datatypes import ModelInput, Provider, ToolGroupIn
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.cerebras import CerebrasImplConfig
 from llama_stack.providers.remote.inference.cerebras.cerebras import model_aliases
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings
@ -23,7 +23,7 @@ def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::cerebras"],
        "safety": ["inline::llama-guard"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "agents": ["inline::meta-reference"],
        "eval": ["inline::meta-reference"],
        "datasetio": ["remote::huggingface", "inline::localfs"],
@ -68,7 +68,7 @@ def get_distribution_template() -> DistributionTemplate:
            "embedding_dimension": 384,
        },
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -100,7 +100,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=default_models + [embedding_model],
                default_shields=[],
--- a/llama_stack/templates/cerebras/run.yaml
+++ b/llama_stack/templates/cerebras/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: cerebras
@ -24,7 +24,7 @@ providers:
  - provider_id: llama-guard
    provider_type: inline::llama-guard
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -106,7 +106,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/experimental-post-training/run.yaml
+++ b/llama_stack/templates/experimental-post-training/run.yaml
@ -60,7 +60,7 @@ providers:
  - provider_id: llama-guard
    provider_type: inline::llama-guard
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -82,7 +82,7 @@ metadata_store:
  db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/meta-reference-gpu}/registry.db
 models: []
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/fireworks/build.yaml
+++ b/llama_stack/templates/fireworks/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::fireworks
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/fireworks/fireworks.py
+++ b/llama_stack/templates/fireworks/fireworks.py
@ -18,7 +18,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.fireworks import FireworksImplConfig
 from llama_stack.providers.remote.inference.fireworks.fireworks import MODEL_ALIASES
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings
@ -27,7 +27,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::fireworks"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -55,7 +55,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -107,7 +107,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=default_models + [embedding_model],
                default_shields=[ShieldInput(shield_id="meta-llama/Llama-Guard-3-8B")],
@ -119,7 +119,7 @@ def get_distribution_template() -> DistributionTemplate:
                        inference_provider,
                        embedding_provider,
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                    "safety": [
                        Provider(
                            provider_id="llama-guard",
--- a/llama_stack/templates/fireworks/run-with-safety.yaml
+++ b/llama_stack/templates/fireworks/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: fireworks
@ -20,7 +20,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -161,7 +161,7 @@ shields:
  provider_id: llama-guard-vision
 - shield_id: CodeScanner
  provider_id: code-scanner
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/fireworks/run.yaml
+++ b/llama_stack/templates/fireworks/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: fireworks
@ -20,7 +20,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -150,7 +150,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: meta-llama/Llama-Guard-3-8B
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/hf-endpoint/build.yaml
+++ b/llama_stack/templates/hf-endpoint/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::hf::endpoint
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/hf-endpoint/hf_endpoint.py
+++ b/llama_stack/templates/hf-endpoint/hf_endpoint.py
@ -14,7 +14,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.tgi import InferenceEndpointImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -22,7 +22,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::hf::endpoint"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -48,7 +48,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -97,7 +97,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -115,7 +115,7 @@ def get_distribution_template() -> DistributionTemplate:
                            ),
                        ),
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[
                    inference_model,
--- a/llama_stack/templates/hf-endpoint/run-with-safety.yaml
+++ b/llama_stack/templates/hf-endpoint/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: hf-endpoint
@ -25,7 +25,7 @@ providers:
    config:
      endpoint_name: ${env.SAFETY_INFERENCE_ENDPOINT_NAME}
      api_token: ${env.HF_API_TOKEN}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -113,7 +113,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: ${env.SAFETY_MODEL}
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/hf-endpoint/run.yaml
+++ b/llama_stack/templates/hf-endpoint/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: hf-endpoint
@ -20,7 +20,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -103,7 +103,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/hf-serverless/build.yaml
+++ b/llama_stack/templates/hf-serverless/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::hf::serverless
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/hf-serverless/hf_serverless.py
+++ b/llama_stack/templates/hf-serverless/hf_serverless.py
@ -14,7 +14,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.tgi import InferenceAPIImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -22,7 +22,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::hf::serverless"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -49,7 +49,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -98,7 +98,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -116,7 +116,7 @@ def get_distribution_template() -> DistributionTemplate:
                            ),
                        ),
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[
                    inference_model,
--- a/llama_stack/templates/hf-serverless/run-with-safety.yaml
+++ b/llama_stack/templates/hf-serverless/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: hf-serverless
@ -25,7 +25,7 @@ providers:
    config:
      huggingface_repo: ${env.SAFETY_MODEL}
      api_token: ${env.HF_API_TOKEN}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -113,7 +113,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: ${env.SAFETY_MODEL}
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/hf-serverless/run.yaml
+++ b/llama_stack/templates/hf-serverless/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: hf-serverless
@ -20,7 +20,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -103,7 +103,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/meta-reference-gpu/build.yaml
+++ b/llama_stack/templates/meta-reference-gpu/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - inline::meta-reference
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/meta-reference-gpu/meta_reference.py
+++ b/llama_stack/templates/meta-reference-gpu/meta_reference.py
@ -19,14 +19,14 @@ from llama_stack.providers.inline.inference.meta_reference import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings


 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["inline::meta-reference"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -55,7 +55,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -103,7 +103,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -122,7 +122,7 @@ def get_distribution_template() -> DistributionTemplate:
                            ),
                        ),
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[
                    inference_model,
--- a/llama_stack/templates/meta-reference-gpu/run-with-safety.yaml
+++ b/llama_stack/templates/meta-reference-gpu/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: meta-reference-inference
@ -27,7 +27,7 @@ providers:
      model: ${env.SAFETY_MODEL}
      max_seq_len: 4096
      checkpoint_dir: ${env.SAFETY_CHECKPOINT_DIR:null}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -115,7 +115,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: ${env.SAFETY_MODEL}
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/meta-reference-gpu/run.yaml
+++ b/llama_stack/templates/meta-reference-gpu/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: meta-reference-inference
@ -21,7 +21,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -104,7 +104,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/meta-reference-quantized-gpu/build.yaml
+++ b/llama_stack/templates/meta-reference-quantized-gpu/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - inline::meta-reference-quantized
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/meta-reference-quantized-gpu/meta_reference.py
+++ b/llama_stack/templates/meta-reference-quantized-gpu/meta_reference.py
@ -14,14 +14,14 @@ from llama_stack.providers.inline.inference.meta_reference import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings


 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["inline::meta-reference-quantized"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -64,7 +64,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -93,7 +93,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
--- a/llama_stack/templates/meta-reference-quantized-gpu/run.yaml
+++ b/llama_stack/templates/meta-reference-quantized-gpu/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: meta-reference-inference
@ -23,7 +23,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -106,7 +106,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/nvidia/build.yaml
+++ b/llama_stack/templates/nvidia/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::nvidia
-    memory:
+    vector_io:
    - inline::faiss
    safety:
    - inline::llama-guard
--- a/llama_stack/templates/nvidia/nvidia.py
+++ b/llama_stack/templates/nvidia/nvidia.py
@ -17,7 +17,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::nvidia"],
-        "memory": ["inline::faiss"],
+        "vector_io": ["inline::faiss"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
--- a/llama_stack/templates/nvidia/run.yaml
+++ b/llama_stack/templates/nvidia/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: nvidia
@ -17,7 +17,7 @@ providers:
    config:
      url: https://integrate.api.nvidia.com
      api_key: ${env.NVIDIA_API_KEY}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -136,7 +136,7 @@ models:
  provider_model_id: meta/llama-3.2-90b-vision-instruct
  model_type: llm
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/ollama/build.yaml
+++ b/llama_stack/templates/ollama/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::ollama
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/ollama/ollama.py
+++ b/llama_stack/templates/ollama/ollama.py
@ -16,7 +16,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.ollama import OllamaImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -24,7 +24,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::ollama"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -49,7 +49,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -98,7 +98,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -109,7 +109,7 @@ def get_distribution_template() -> DistributionTemplate:
                        inference_provider,
                        embedding_provider,
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                    "safety": [
                        Provider(
                            provider_id="llama-guard",
--- a/llama_stack/templates/ollama/run-with-safety.yaml
+++ b/llama_stack/templates/ollama/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: ollama
@ -19,7 +19,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -110,7 +110,7 @@ shields:
  provider_id: llama-guard
 - shield_id: CodeScanner
  provider_id: code-scanner
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/ollama/run.yaml
+++ b/llama_stack/templates/ollama/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: ollama
@ -19,7 +19,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -99,7 +99,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/remote-vllm/build.yaml
+++ b/llama_stack/templates/remote-vllm/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::vllm
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/remote-vllm/run-with-safety.yaml
+++ b/llama_stack/templates/remote-vllm/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: vllm-inference
@ -27,7 +27,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -115,7 +115,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: ${env.SAFETY_MODEL}
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/remote-vllm/run.yaml
+++ b/llama_stack/templates/remote-vllm/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: vllm-inference
@ -21,7 +21,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -104,7 +104,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/remote-vllm/vllm.py
+++ b/llama_stack/templates/remote-vllm/vllm.py
@ -16,7 +16,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.vllm import VLLMInferenceAdapterConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -24,7 +24,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::vllm"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "eval": ["inline::meta-reference"],
@ -52,7 +52,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -100,7 +100,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -118,7 +118,7 @@ def get_distribution_template() -> DistributionTemplate:
                        ),
                        embedding_provider,
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[
                    inference_model,
--- a/llama_stack/templates/tgi/build.yaml
+++ b/llama_stack/templates/tgi/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - remote::tgi
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/tgi/run-with-safety.yaml
+++ b/llama_stack/templates/tgi/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: tgi-inference
@ -20,7 +20,7 @@ providers:
    provider_type: remote::tgi
    config:
      url: ${env.TGI_SAFETY_URL}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -103,7 +103,7 @@ models:
  model_type: llm
 shields:
 - shield_id: ${env.SAFETY_MODEL}
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/tgi/run.yaml
+++ b/llama_stack/templates/tgi/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: tgi-inference
@ -19,7 +19,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -102,7 +102,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/tgi/tgi.py
+++ b/llama_stack/templates/tgi/tgi.py
@ -16,7 +16,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.tgi import TGIImplConfig
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings

@ -24,7 +24,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::tgi"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -52,7 +52,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -101,7 +101,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,
@ -118,7 +118,7 @@ def get_distribution_template() -> DistributionTemplate:
                            ),
                        ),
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[
                    inference_model,
--- a/llama_stack/templates/together/run-with-safety.yaml
+++ b/llama_stack/templates/together/run-with-safety.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: together
@ -20,7 +20,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -156,7 +156,7 @@ shields:
  provider_id: llama-guard-vision
 - shield_id: CodeScanner
  provider_id: code-scanner
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/together/run.yaml
+++ b/llama_stack/templates/together/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- vector_io
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: together
@ -145,6 +145,7 @@ models:
  model_type: embedding
 shields:
 - shield_id: meta-llama/Llama-Guard-3-8B
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/together/together.py
+++ b/llama_stack/templates/together/together.py
@ -18,7 +18,7 @@ from llama_stack.distribution.datatypes import (
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.providers.remote.inference.together import TogetherImplConfig
 from llama_stack.providers.remote.inference.together.together import MODEL_ALIASES
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings
@ -27,7 +27,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::together"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -48,7 +48,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="remote::together",
        config=TogetherImplConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -105,7 +105,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=default_models + [embedding_model],
                default_tool_groups=default_tool_groups,
@ -117,7 +117,7 @@ def get_distribution_template() -> DistributionTemplate:
                        inference_provider,
                        embedding_provider,
                    ],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                    "safety": [
                        Provider(
                            provider_id="llama-guard",
--- a/llama_stack/templates/vllm-gpu/build.yaml
+++ b/llama_stack/templates/vllm-gpu/build.yaml
@ -4,7 +4,7 @@ distribution_spec:
  providers:
    inference:
    - inline::vllm
-    memory:
+    vector_io:
    - inline::faiss
    - remote::chromadb
    - remote::pgvector
--- a/llama_stack/templates/vllm-gpu/run.yaml
+++ b/llama_stack/templates/vllm-gpu/run.yaml
@ -5,11 +5,11 @@ apis:
 - datasetio
 - eval
 - inference
- memory
 - safety
 - scoring
 - telemetry
 - tool_runtime
+- vector_io
 providers:
  inference:
  - provider_id: vllm
@ -23,7 +23,7 @@ providers:
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
-  memory:
+  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
@ -106,7 +106,7 @@ models:
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
-memory_banks: []
+vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
--- a/llama_stack/templates/vllm-gpu/vllm.py
+++ b/llama_stack/templates/vllm-gpu/vllm.py
@ -10,7 +10,7 @@ from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
 from llama_stack.providers.inline.inference.vllm import VLLMConfig
-from llama_stack.providers.inline.memory.faiss.config import FaissImplConfig
+from llama_stack.providers.inline.vector_io.faiss.config import FaissImplConfig
 from llama_stack.templates.template import (
    DistributionTemplate,
    RunConfigSettings,
@ -21,7 +21,7 @@ from llama_stack.templates.template import (
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["inline::vllm"],
-        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
+        "vector_io": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
@ -43,7 +43,7 @@ def get_distribution_template() -> DistributionTemplate:
        provider_type="inline::vllm",
        config=VLLMConfig.sample_run_config(),
    )
-    memory_provider = Provider(
+    vector_io_provider = Provider(
        provider_id="faiss",
        provider_type="inline::faiss",
        config=FaissImplConfig.sample_run_config(f"distributions/{name}"),
@ -93,7 +93,7 @@ def get_distribution_template() -> DistributionTemplate:
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
-                    "memory": [memory_provider],
+                    "vector_io": [vector_io_provider],
                },
                default_models=[inference_model, embedding_model],
                default_tool_groups=default_tool_groups,