revert: "chore(cleanup)!: remove tool_runtime.rag_tool" (#3877)

Reverts llamastack/llama-stack#3871 This PR broke RAG (even from Responses -- there _is_ a dependency)
2025-12-09 19:29:18 +00:00 · 2025-10-21 11:22:06 -07:00 · 2025-10-21 11:22:06 -07:00 · bd3c473208
commit bd3c473208
parent eb3e9b85f9
55 changed files with 3114 additions and 17 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -42,7 +42,6 @@ def available_providers() -> list[ProviderSpec]:
            # CrossEncoder depends on torchao.quantization
            pip_packages=[
                "torch torchvision torchao>=0.12.0 --extra-index-url https://download.pytorch.org/whl/cpu",
-                "numpy tqdm transformers",
                "sentence-transformers --no-deps",
                # required by some SentenceTransformers architectures for tensor rearrange/merge ops
                "einops",
--- a/llama_stack/providers/registry/tool_runtime.py
+++ b/llama_stack/providers/registry/tool_runtime.py
@ -7,13 +7,33 @@

 from llama_stack.providers.datatypes import (
    Api,
+    InlineProviderSpec,
    ProviderSpec,
    RemoteProviderSpec,
 )
+from llama_stack.providers.registry.vector_io import DEFAULT_VECTOR_IO_DEPS


 def available_providers() -> list[ProviderSpec]:
    return [
+        InlineProviderSpec(
+            api=Api.tool_runtime,
+            provider_type="inline::rag-runtime",
+            pip_packages=DEFAULT_VECTOR_IO_DEPS
+            + [
+                "tqdm",
+                "numpy",
+                "scikit-learn",
+                "scipy",
+                "nltk",
+                "sentencepiece",
+                "transformers",
+            ],
+            module="llama_stack.providers.inline.tool_runtime.rag",
+            config_class="llama_stack.providers.inline.tool_runtime.rag.config.RagToolRuntimeConfig",
+            api_dependencies=[Api.vector_io, Api.inference, Api.files],
+            description="RAG (Retrieval-Augmented Generation) tool runtime for document ingestion, chunking, and semantic search.",
+        ),
        RemoteProviderSpec(
            api=Api.tool_runtime,
            adapter_type="brave-search",
--- a/llama_stack/providers/registry/vector_io.py
+++ b/llama_stack/providers/registry/vector_io.py
@ -119,7 +119,7 @@ Datasets that can fit in memory, frequent reads | Faiss | Optimized for speed, i
 #### Empirical Example

 Consider the histogram below in which 10,000 randomly generated strings were inserted
-in batches of 100 into both Faiss and sqlite-vec.
+in batches of 100 into both Faiss and sqlite-vec using `client.tool_runtime.rag_tool.insert()`.

 ```{image} ../../../../_static/providers/vector_io/write_time_comparison_sqlite-vec-faiss.png
 :alt: Comparison of SQLite-Vec and Faiss write times