do not mention sentence transformer provider in docs

2025-08-03 01:03:59 +00:00 · 2024-12-13 09:32:42 -08:00 · 2024-12-13 09:32:42 -08:00 · 40d70864e7
commit 40d70864e7
parent fe2eb39da7
4 changed files with 42 additions and 6 deletions
--- a/distributions/dependencies.json
+++ b/distributions/dependencies.json
@ -260,6 +260,46 @@
    "sentence-transformers --no-deps",
    "torch --index-url https://download.pytorch.org/whl/cpu"
  ],
  "meta-reference-quantized-gpu": [
    "accelerate",
    "aiosqlite",
    "autoevals",
    "blobfile",
    "chardet",
    "chromadb-client",
    "datasets",
    "fairscale",
    "faiss-cpu",
    "fastapi",
    "fbgemm-gpu",
    "fire",
    "httpx",
    "lm-format-enforcer",
    "matplotlib",
    "nltk",
    "numpy",
    "openai",
    "opentelemetry-exporter-otlp-proto-http",
    "opentelemetry-sdk",
    "pandas",
    "pillow",
    "psycopg2-binary",
    "pypdf",
    "redis",
    "scikit-learn",
    "scipy",
    "sentence-transformers",
    "sentencepiece",
    "torch",
    "torchao==0.5.0",
    "torchvision",
    "tqdm",
    "transformers",
    "uvicorn",
    "zmq",
    "sentence-transformers --no-deps",
    "torch --index-url https://download.pytorch.org/whl/cpu"
  ],
  "cerebras": [
    "aiosqlite",
    "blobfile",
--- a/docs/source/distributions/self_hosted_distro/meta-reference-quantized-gpu.md
+++ b/docs/source/distributions/self_hosted_distro/meta-reference-quantized-gpu.md
@ -17,7 +17,7 @@ The `llamastack/distribution-meta-reference-quantized-gpu` distribution consists
 | agents | `inline::meta-reference` |
 | datasetio | `remote::huggingface`, `inline::localfs` |
 | eval | `inline::meta-reference` |
-| inference | `inline::meta-reference-quantized`, `remote::sentence-transformers` |
+| inference | `inline::meta-reference-quantized` |
 | memory | `inline::faiss`, `remote::chromadb`, `remote::pgvector` |
 | safety | `inline::llama-guard` |
 | scoring | `inline::basic`, `inline::llm-as-judge`, `inline::braintrust` |
--- a/llama_stack/templates/meta-reference-quantized-gpu/build.yaml
+++ b/llama_stack/templates/meta-reference-quantized-gpu/build.yaml
@ -6,7 +6,6 @@ distribution_spec:
  providers:
    inference:
    - inline::meta-reference-quantized
    - remote::sentence-transformers
    memory:
    - inline::faiss
    - remote::chromadb
--- a/llama_stack/templates/meta-reference-quantized-gpu/meta_reference.py
+++ b/llama_stack/templates/meta-reference-quantized-gpu/meta_reference.py
@ -21,10 +21,7 @@ from llama_stack.templates.template import DistributionTemplate, RunConfigSettin
 def get_distribution_template() -> DistributionTemplate:
    providers = {
-        "inference": [
+        "inference": ["inline::meta-reference-quantized"],
            "inline::meta-reference-quantized",
            "remote::sentence-transformers",
        ],
        "memory": ["inline::faiss", "remote::chromadb", "remote::pgvector"],
        "safety": ["inline::llama-guard"],
        "agents": ["inline::meta-reference"],