Merge branch 'main' into santiagxf/azure-ai-inference

2025-12-20 17:58:40 +00:00 · 2024-11-07 12:43:55 -05:00 · 2024-11-07 12:43:55 -05:00 · 5c429b0b67
commit 5c429b0b67
parent e247849d1b cfcc0a871c
273 changed files with 5491 additions and 5418 deletions
--- a/llama_stack/providers/adapters/inference/vllm/init.py
+++ b/llama_stack/providers/adapters/inference/vllm/init.py
@ -1,15 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-
-from .config import VLLMImplConfig
-from .vllm import VLLMInferenceAdapter
-
-
-async def get_adapter_impl(config: VLLMImplConfig, _deps):
-    assert isinstance(config, VLLMImplConfig), f"Unexpected config type: {type(config)}"
-    impl = VLLMInferenceAdapter(config)
-    await impl.initialize()
-    return impl
--- a/llama_stack/providers/adapters/safety/bedrock/config.py
+++ b/llama_stack/providers/adapters/safety/bedrock/config.py
@ -1,16 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-
-from pydantic import BaseModel, Field
-
-
-class BedrockSafetyConfig(BaseModel):
-    """Configuration information for a guardrail that you want to use in the request."""
-
-    aws_profile: str = Field(
-        default="default",
-        description="The profile on the machine having valid aws credentials. This will ensure separation of creation to invocation",
-    )
--- a/llama_stack/providers/adapters/safety/together/config.py
+++ b/llama_stack/providers/adapters/safety/together/config.py
@ -1,26 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-
-from typing import Optional
-
-from llama_models.schema_utils import json_schema_type
-from pydantic import BaseModel, Field
-
-
-class TogetherProviderDataValidator(BaseModel):
-    together_api_key: str
-
-
-@json_schema_type
-class TogetherSafetyConfig(BaseModel):
-    url: str = Field(
-        default="https://api.together.xyz/v1",
-        description="The URL for the Together AI server",
-    )
-    api_key: Optional[str] = Field(
-        default=None,
-        description="The Together AI API Key (default for the distribution, if any)",
-    )
--- a/llama_stack/providers/adapters/safety/together/together.py
+++ b/llama_stack/providers/adapters/safety/together/together.py
@ -1,101 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-from together import Together
-
-from llama_models.llama3.api.datatypes import *  # noqa: F403
-from llama_stack.apis.safety import *  # noqa: F403
-from llama_stack.distribution.request_headers import NeedsRequestProviderData
-from llama_stack.providers.datatypes import ShieldsProtocolPrivate
-
-from .config import TogetherSafetyConfig
-
-
-TOGETHER_SHIELD_MODEL_MAP = {
-    "llama_guard": "meta-llama/Meta-Llama-Guard-3-8B",
-    "Llama-Guard-3-8B": "meta-llama/Meta-Llama-Guard-3-8B",
-    "Llama-Guard-3-11B-Vision": "meta-llama/Llama-Guard-3-11B-Vision-Turbo",
-}
-
-
-class TogetherSafetyImpl(Safety, NeedsRequestProviderData, ShieldsProtocolPrivate):
-    def __init__(self, config: TogetherSafetyConfig) -> None:
-        self.config = config
-
-    async def initialize(self) -> None:
-        pass
-
-    async def shutdown(self) -> None:
-        pass
-
-    async def register_shield(self, shield: ShieldDef) -> None:
-        raise ValueError("Registering dynamic shields is not supported")
-
-    async def list_shields(self) -> List[ShieldDef]:
-        return [
-            ShieldDef(
-                identifier=ShieldType.llama_guard.value,
-                type=ShieldType.llama_guard.value,
-                params={},
-            )
-        ]
-
-    async def run_shield(
-        self, shield_type: str, messages: List[Message], params: Dict[str, Any] = None
-    ) -> RunShieldResponse:
-        shield_def = await self.shield_store.get_shield(shield_type)
-        if not shield_def:
-            raise ValueError(f"Unknown shield {shield_type}")
-
-        model = shield_def.params.get("model", "llama_guard")
-        if model not in TOGETHER_SHIELD_MODEL_MAP:
-            raise ValueError(f"Unsupported safety model: {model}")
-
-        together_api_key = None
-        if self.config.api_key is not None:
-            together_api_key = self.config.api_key
-        else:
-            provider_data = self.get_request_provider_data()
-            if provider_data is None or not provider_data.together_api_key:
-                raise ValueError(
-                    'Pass Together API Key in the header X-LlamaStack-ProviderData as { "together_api_key": <your api key>}'
-                )
-            together_api_key = provider_data.together_api_key
-
-        # messages can have role assistant or user
-        api_messages = []
-        for message in messages:
-            if message.role in (Role.user.value, Role.assistant.value):
-                api_messages.append({"role": message.role, "content": message.content})
-
-        violation = await get_safety_response(
-            together_api_key, TOGETHER_SHIELD_MODEL_MAP[model], api_messages
-        )
-        return RunShieldResponse(violation=violation)
-
-
-async def get_safety_response(
-    api_key: str, model_name: str, messages: List[Dict[str, str]]
-) -> Optional[SafetyViolation]:
-    client = Together(api_key=api_key)
-    response = client.chat.completions.create(messages=messages, model=model_name)
-    if len(response.choices) == 0:
-        return None
-
-    response_text = response.choices[0].message.content
-    if response_text == "safe":
-        return None
-
-    parts = response_text.split("\n")
-    if len(parts) != 2:
-        return None
-
-    if parts[0] == "unsafe":
-        return SafetyViolation(
-            violation_level=ViolationLevel.ERROR,
-            metadata={"violation_type": parts[1]},
-        )
-
-    return None
--- a/llama_stack/providers/datatypes.py
+++ b/llama_stack/providers/datatypes.py
@ -6,6 +6,7 @@

 from enum import Enum
 from typing import Any, List, Optional, Protocol
+from urllib.parse import urlparse

 from llama_models.schema_utils import json_schema_type
 from pydantic import BaseModel, Field
@ -145,11 +146,19 @@ Fully-qualified name of the module to import. The module is expected to have:

 class RemoteProviderConfig(BaseModel):
    host: str = "localhost"
-    port: int
+    port: Optional[int] = None
+    protocol: str = "http"

    @property
    def url(self) -> str:
-        return f"http://{self.host}:{self.port}"
+        if self.port is None:
+            return f"{self.protocol}://{self.host}"
+        return f"{self.protocol}://{self.host}:{self.port}"
+
+    @classmethod
+    def from_url(cls, url: str) -> "RemoteProviderConfig":
+        parsed = urlparse(url)
+        return cls(host=parsed.hostname, port=parsed.port, protocol=parsed.scheme)


@json_schema_type
--- a/llama_stack/providers/impls/ios/inference/README.md
+++ b/llama_stack/providers/impls/ios/inference/README.md
@ -1,120 +0,0 @@
-# LocalInference
-
-LocalInference provides a local inference implementation powered by [executorch](https://github.com/pytorch/executorch/).
-
-Llama Stack currently supports on-device inference for iOS with Android coming soon. You can run on-device inference on Android today using [executorch](https://github.com/pytorch/executorch/tree/main/examples/demo-apps/android/LlamaDemo), PyTorch’s on-device inference library.
-
-## Installation
-
-We're working on making LocalInference easier to set up. For now, you'll need to import it via `.xcframework`:
-
-1. Clone the executorch submodule in this repo and its dependencies: `git submodule update --init --recursive`
-1. Install [Cmake](https://cmake.org/) for the executorch build`
-1. Drag `LocalInference.xcodeproj` into your project
-1. Add `LocalInference` as a framework in your app target
-1. Add a package dependency on https://github.com/pytorch/executorch (branch latest)
-1. Add all the kernels / backends from executorch (but not exectuorch itself!) as frameworks in your app target:
-    - backend_coreml
-    - backend_mps
-    - backend_xnnpack
-    - kernels_custom
-    - kernels_optimized
-    - kernels_portable
-    - kernels_quantized
-1. In "Build Settings" > "Other Linker Flags" > "Any iOS Simulator SDK", add:
-    ```
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_optimized-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_custom-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_quantized-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_xnnpack-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_coreml-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_mps-simulator-release.a
-    ```
-
-1. In "Build Settings" > "Other Linker Flags" > "Any iOS SDK", add:
-
-    ```
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_optimized-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_custom-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libkernels_quantized-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_xnnpack-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_coreml-simulator-release.a
-    -force_load
-    $(BUILT_PRODUCTS_DIR)/libbackend_mps-simulator-release.a
-    ```
-
-## Preparing a model
-
-1. Prepare a `.pte` file [following the executorch docs](https://github.com/pytorch/executorch/blob/main/examples/models/llama/README.md#step-2-prepare-model)
-2. Bundle the `.pte` and `tokenizer.model` file into your app
-
-We now support models quantized using SpinQuant and QAT-LoRA which offer a significant performance boost (demo app on iPhone 13 Pro):
-
-
-| Llama 3.2 1B | Tokens / Second (total) |  | Time-to-First-Token (sec) |  |
-| :---- | :---- | :---- | :---- | :---- |
-|  | Haiku | Paragraph | Haiku | Paragraph |
-| BF16 | 2.2 | 2.5 | 2.3 | 1.9 |
-| QAT+LoRA | 7.1 | 3.3 | 0.37 | 0.24 |
-| SpinQuant | 10.1 | 5.2 | 0.2 | 0.2 |
-
-
-## Using LocalInference
-
-1. Instantiate LocalInference with a DispatchQueue. Optionally, pass it into your agents service:
-
-```swift
-  init () {
-    runnerQueue = DispatchQueue(label: "org.meta.llamastack")
-    inferenceService = LocalInferenceService(queue: runnerQueue)
-    agentsService = LocalAgentsService(inference: inferenceService)
-  }
-```
-
-2. Before making any inference calls, load your model from your bundle:
-
-```swift
-let mainBundle = Bundle.main
-inferenceService.loadModel(
-    modelPath: mainBundle.url(forResource: "llama32_1b_spinquant", withExtension: "pte"),
-    tokenizerPath: mainBundle.url(forResource: "tokenizer", withExtension: "model"),
-    completion: {_ in } // use to handle load failures
-)
-```
-
-3. Make inference calls (or agents calls) as you normally would with LlamaStack:
-
-```
-for await chunk in try await agentsService.initAndCreateTurn(
-    messages: [
-    .UserMessage(Components.Schemas.UserMessage(
-        content: .case1("Call functions as needed to handle any actions in the following text:\n\n" + text),
-        role: .user))
-    ]
-) {
-```
-
-## Troubleshooting
-
-If you receive errors like "missing package product" or "invalid checksum", try cleaning the build folder and resetting the Swift package cache:
-
-(Opt+Click) Product > Clean Build Folder Immediately
-
-```
-rm -rf \
-  ~/Library/org.swift.swiftpm \
-  ~/Library/Caches/org.swift.swiftpm \
-  ~/Library/Caches/com.apple.dt.Xcode \
-  ~/Library/Developer/Xcode/DerivedData
-```
--- a/llama_stack/providers/adapters/init.py
+++ b/llama_stack/providers/adapters/init.py
--- a/llama_stack/providers/inline/braintrust/scoring/init.py
+++ b/llama_stack/providers/inline/braintrust/scoring/init.py
--- a/llama_stack/providers/inline/braintrust/scoring/braintrust.py
+++ b/llama_stack/providers/inline/braintrust/scoring/braintrust.py
@ -16,7 +16,7 @@ from llama_stack.apis.datasets import *  # noqa: F403
 from autoevals.llm import Factuality
 from autoevals.ragas import AnswerCorrectness
 from llama_stack.providers.datatypes import ScoringFunctionsProtocolPrivate
-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.common import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.common import (
    aggregate_average,
 )

--- a/llama_stack/providers/inline/braintrust/scoring/config.py
+++ b/llama_stack/providers/inline/braintrust/scoring/config.py
--- a/llama_stack/providers/inline/braintrust/scoring/scoring_fn/init.py
+++ b/llama_stack/providers/inline/braintrust/scoring/scoring_fn/init.py
--- a/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/init.py
+++ b/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/init.py
--- a/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/answer_correctness.py
+++ b/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/answer_correctness.py
--- a/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/factuality.py
+++ b/llama_stack/providers/inline/braintrust/scoring/scoring_fn/fn_defs/factuality.py
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.pbxproj
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.pbxproj
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/contents.xcworkspacedata
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/contents.xcworkspacedata
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/xcshareddata/IDEWorkspaceChecks.plist
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/xcshareddata/IDEWorkspaceChecks.plist
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.h
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.h
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.swift
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.swift
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/Parsing.swift
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/Parsing.swift
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/PromptTemplate.swift
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/PromptTemplate.swift
--- a/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/SystemPrompts.swift
+++ b/llama_stack/providers/inline/ios/inference/LocalInferenceImpl/SystemPrompts.swift
--- a/llama_stack/providers/inline/ios/inference/executorch
+++ b/llama_stack/providers/inline/ios/inference/executorch
--- a/llama_stack/providers/inline/meta_reference/init.py
+++ b/llama_stack/providers/inline/meta_reference/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/init.py
+++ b/llama_stack/providers/inline/meta_reference/agents/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/agent_instance.py
+++ b/llama_stack/providers/inline/meta_reference/agents/agent_instance.py
--- a/llama_stack/providers/inline/meta_reference/agents/agents.py
+++ b/llama_stack/providers/inline/meta_reference/agents/agents.py
--- a/llama_stack/providers/inline/meta_reference/agents/config.py
+++ b/llama_stack/providers/inline/meta_reference/agents/config.py
@ -4,10 +4,11 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from pydantic import BaseModel
+from pydantic import BaseModel, Field

 from llama_stack.providers.utils.kvstore import KVStoreConfig
+from llama_stack.providers.utils.kvstore.config import SqliteKVStoreConfig


 class MetaReferenceAgentsImplConfig(BaseModel):
-    persistence_store: KVStoreConfig
+    persistence_store: KVStoreConfig = Field(default=SqliteKVStoreConfig())
--- a/llama_stack/providers/inline/meta_reference/agents/persistence.py
+++ b/llama_stack/providers/inline/meta_reference/agents/persistence.py
--- a/llama_stack/providers/inline/meta_reference/agents/rag/init.py
+++ b/llama_stack/providers/inline/meta_reference/agents/rag/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/rag/context_retriever.py
+++ b/llama_stack/providers/inline/meta_reference/agents/rag/context_retriever.py
--- a/llama_stack/providers/inline/meta_reference/agents/safety.py
+++ b/llama_stack/providers/inline/meta_reference/agents/safety.py
@ -32,18 +32,18 @@ class ShieldRunnerMixin:
        self.output_shields = output_shields

    async def run_multiple_shields(
-        self, messages: List[Message], shield_types: List[str]
+        self, messages: List[Message], identifiers: List[str]
    ) -> None:
        responses = await asyncio.gather(
            *[
                self.safety_api.run_shield(
-                    shield_type=shield_type,
+                    identifier=identifier,
                    messages=messages,
                )
-                for shield_type in shield_types
+                for identifier in identifiers
            ]
        )
-        for shield_type, response in zip(shield_types, responses):
+        for identifier, response in zip(identifiers, responses):
            if not response.violation:
                continue

@ -52,6 +52,6 @@ class ShieldRunnerMixin:
                raise SafetyException(violation)
            elif violation.violation_level == ViolationLevel.WARN:
                cprint(
-                    f"[Warn]{shield_type} raised a warning",
+                    f"[Warn]{identifier} raised a warning",
                    color="red",
                )
--- a/llama_stack/providers/inline/meta_reference/agents/tests/init.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tests/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/tests/code_execution.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tests/code_execution.py
--- a/llama_stack/providers/inline/meta_reference/agents/tests/test_chat_agent.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tests/test_chat_agent.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/init.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/base.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/base.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/builtin.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/builtin.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/init.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/init.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/code_env_prefix.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/code_env_prefix.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/code_execution.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/code_execution.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/matplotlib_custom_backend.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/matplotlib_custom_backend.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/utils.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/ipython_tool/utils.py
--- a/llama_stack/providers/inline/meta_reference/agents/tools/safety.py
+++ b/llama_stack/providers/inline/meta_reference/agents/tools/safety.py
@ -9,7 +9,7 @@ from typing import List
 from llama_stack.apis.inference import Message
 from llama_stack.apis.safety import *  # noqa: F403

-from llama_stack.providers.impls.meta_reference.agents.safety import ShieldRunnerMixin
+from llama_stack.providers.inline.meta_reference.agents.safety import ShieldRunnerMixin

 from .builtin import BaseTool

--- a/llama_stack/providers/inline/meta_reference/codeshield/init.py
+++ b/llama_stack/providers/inline/meta_reference/codeshield/init.py
--- a/llama_stack/providers/inline/meta_reference/codeshield/code_scanner.py
+++ b/llama_stack/providers/inline/meta_reference/codeshield/code_scanner.py
@ -25,8 +25,8 @@ class MetaReferenceCodeScannerSafetyImpl(Safety):
        pass

    async def register_shield(self, shield: ShieldDef) -> None:
-        if shield.type != ShieldType.code_scanner.value:
-            raise ValueError(f"Unsupported safety shield type: {shield.type}")
+        if shield.shield_type != ShieldType.code_scanner.value:
+            raise ValueError(f"Unsupported safety shield type: {shield.shield_type}")

    async def run_shield(
        self,
--- a/llama_stack/providers/inline/meta_reference/codeshield/config.py
+++ b/llama_stack/providers/inline/meta_reference/codeshield/config.py
--- a/llama_stack/providers/inline/meta_reference/datasetio/init.py
+++ b/llama_stack/providers/inline/meta_reference/datasetio/init.py
--- a/llama_stack/providers/inline/meta_reference/datasetio/config.py
+++ b/llama_stack/providers/inline/meta_reference/datasetio/config.py
--- a/llama_stack/providers/inline/meta_reference/datasetio/datasetio.py
+++ b/llama_stack/providers/inline/meta_reference/datasetio/datasetio.py
--- a/llama_stack/providers/inline/meta_reference/eval/init.py
+++ b/llama_stack/providers/inline/meta_reference/eval/init.py
--- a/llama_stack/providers/inline/meta_reference/eval/config.py
+++ b/llama_stack/providers/inline/meta_reference/eval/config.py
--- a/llama_stack/providers/inline/meta_reference/eval/eval.py
+++ b/llama_stack/providers/inline/meta_reference/eval/eval.py
--- a/llama_stack/providers/inline/meta_reference/inference/init.py
+++ b/llama_stack/providers/inline/meta_reference/inference/init.py
--- a/llama_stack/providers/inline/meta_reference/inference/config.py
+++ b/llama_stack/providers/inline/meta_reference/inference/config.py
--- a/llama_stack/providers/inline/meta_reference/inference/generation.py
+++ b/llama_stack/providers/inline/meta_reference/inference/generation.py
--- a/llama_stack/providers/inline/meta_reference/inference/inference.py
+++ b/llama_stack/providers/inline/meta_reference/inference/inference.py
@ -14,6 +14,11 @@ from llama_models.llama3.api.datatypes import *  # noqa: F403
 from llama_stack.apis.inference import *  # noqa: F403
 from llama_stack.providers.datatypes import ModelDef, ModelsProtocolPrivate

+from llama_stack.providers.utils.inference.prompt_adapter import (
+    convert_image_media_to_url,
+    request_has_media,
+)
+
 from .config import MetaReferenceInferenceConfig
 from .generation import Llama
 from .model_parallel import LlamaModelParallelGenerator
@ -87,6 +92,7 @@ class MetaReferenceInferenceImpl(Inference, ModelsProtocolPrivate):
            logprobs=logprobs,
        )
        self.check_model(request)
+        request = await request_with_localized_media(request)

        if request.stream:
            return self._stream_completion(request)
@ -211,6 +217,7 @@ class MetaReferenceInferenceImpl(Inference, ModelsProtocolPrivate):
            logprobs=logprobs,
        )
        self.check_model(request)
+        request = await request_with_localized_media(request)

        if self.config.create_distributed_process_group:
            if SEMAPHORE.locked():
@ -388,3 +395,31 @@ class MetaReferenceInferenceImpl(Inference, ModelsProtocolPrivate):
        contents: List[InterleavedTextMedia],
    ) -> EmbeddingsResponse:
        raise NotImplementedError()
+
+
+async def request_with_localized_media(
+    request: Union[ChatCompletionRequest, CompletionRequest],
+) -> Union[ChatCompletionRequest, CompletionRequest]:
+    if not request_has_media(request):
+        return request
+
+    async def _convert_single_content(content):
+        if isinstance(content, ImageMedia):
+            url = await convert_image_media_to_url(content, download=True)
+            return ImageMedia(image=URL(uri=url))
+        else:
+            return content
+
+    async def _convert_content(content):
+        if isinstance(content, list):
+            return [await _convert_single_content(c) for c in content]
+        else:
+            return await _convert_single_content(content)
+
+    if isinstance(request, ChatCompletionRequest):
+        for m in request.messages:
+            m.content = await _convert_content(m.content)
+    else:
+        request.content = await _convert_content(request.content)
+
+    return request
--- a/llama_stack/providers/inline/meta_reference/inference/model_parallel.py
+++ b/llama_stack/providers/inline/meta_reference/inference/model_parallel.py
--- a/llama_stack/providers/inline/meta_reference/inference/parallel_utils.py
+++ b/llama_stack/providers/inline/meta_reference/inference/parallel_utils.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/init.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/init.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/fp8_impls.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/fp8_impls.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/fp8_txest_disabled.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/fp8_txest_disabled.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/hadamard_utils.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/hadamard_utils.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/loader.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/loader.py
@ -27,7 +27,7 @@ from torchao.quantization.GPTQ import Int8DynActInt4WeightLinear

 from llama_stack.apis.inference import QuantizationType

-from llama_stack.providers.impls.meta_reference.inference.config import (
+from llama_stack.providers.inline.meta_reference.inference.config import (
    MetaReferenceQuantizedInferenceConfig,
 )

--- a/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/init.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/init.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/build_conda.sh
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/build_conda.sh
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/quantize_checkpoint.py
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/quantize_checkpoint.py
--- a/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/run_quantize_checkpoint.sh
+++ b/llama_stack/providers/inline/meta_reference/inference/quantization/scripts/run_quantize_checkpoint.sh
--- a/llama_stack/providers/inline/meta_reference/memory/init.py
+++ b/llama_stack/providers/inline/meta_reference/memory/init.py
--- a/llama_stack/providers/inline/meta_reference/memory/config.py
+++ b/llama_stack/providers/inline/meta_reference/memory/config.py
@ -0,0 +1,21 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+
+from llama_models.schema_utils import json_schema_type
+from pydantic import BaseModel
+
+from llama_stack.distribution.utils.config_dirs import RUNTIME_BASE_DIR
+from llama_stack.providers.utils.kvstore.config import (
+    KVStoreConfig,
+    SqliteKVStoreConfig,
+)
+
+
+@json_schema_type
+class FaissImplConfig(BaseModel):
+    kvstore: KVStoreConfig = SqliteKVStoreConfig(
+        db_path=(RUNTIME_BASE_DIR / "faiss_store.db").as_posix()
+    )  # Uses SQLite config specific to FAISS storage
--- a/llama_stack/providers/inline/meta_reference/memory/faiss.py
+++ b/llama_stack/providers/inline/meta_reference/memory/faiss.py
@ -16,6 +16,7 @@ from llama_models.llama3.api.datatypes import *  # noqa: F403

 from llama_stack.apis.memory import *  # noqa: F403
 from llama_stack.providers.datatypes import MemoryBanksProtocolPrivate
+from llama_stack.providers.utils.kvstore import kvstore_impl

 from llama_stack.providers.utils.memory.vector_store import (
    ALL_MINILM_L6_V2_DIMENSION,
@ -28,6 +29,8 @@ from .config import FaissImplConfig

 logger = logging.getLogger(__name__)

+MEMORY_BANKS_PREFIX = "memory_banks:"
+

 class FaissIndex(EmbeddingIndex):
    id_by_index: Dict[int, str]
@ -69,10 +72,25 @@ class FaissMemoryImpl(Memory, MemoryBanksProtocolPrivate):
    def __init__(self, config: FaissImplConfig) -> None:
        self.config = config
        self.cache = {}
+        self.kvstore = None

-    async def initialize(self) -> None: ...
+    async def initialize(self) -> None:
+        self.kvstore = await kvstore_impl(self.config.kvstore)
+        # Load existing banks from kvstore
+        start_key = MEMORY_BANKS_PREFIX
+        end_key = f"{MEMORY_BANKS_PREFIX}\xff"
+        stored_banks = await self.kvstore.range(start_key, end_key)

-    async def shutdown(self) -> None: ...
+        for bank_data in stored_banks:
+            bank = VectorMemoryBankDef.model_validate_json(bank_data)
+            index = BankWithIndex(
+                bank=bank, index=FaissIndex(ALL_MINILM_L6_V2_DIMENSION)
+            )
+            self.cache[bank.identifier] = index
+
+    async def shutdown(self) -> None:
+        # Cleanup if needed
+        pass

    async def register_memory_bank(
        self,
@ -82,6 +100,14 @@ class FaissMemoryImpl(Memory, MemoryBanksProtocolPrivate):
            memory_bank.type == MemoryBankType.vector.value
        ), f"Only vector banks are supported {memory_bank.type}"

+        # Store in kvstore
+        key = f"{MEMORY_BANKS_PREFIX}{memory_bank.identifier}"
+        await self.kvstore.set(
+            key=key,
+            value=memory_bank.json(),
+        )
+
+        # Store in cache
        index = BankWithIndex(
            bank=memory_bank, index=FaissIndex(ALL_MINILM_L6_V2_DIMENSION)
        )
--- a/llama_stack/providers/inline/meta_reference/memory/tests/test_faiss.py
+++ b/llama_stack/providers/inline/meta_reference/memory/tests/test_faiss.py
@ -0,0 +1,73 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+
+import tempfile
+
+import pytest
+from llama_stack.apis.memory import MemoryBankType, VectorMemoryBankDef
+from llama_stack.providers.inline.meta_reference.memory.config import FaissImplConfig
+
+from llama_stack.providers.inline.meta_reference.memory.faiss import FaissMemoryImpl
+from llama_stack.providers.utils.kvstore.config import SqliteKVStoreConfig
+
+
+class TestFaissMemoryImpl:
+    @pytest.fixture
+    def faiss_impl(self):
+        # Create a temporary SQLite database file
+        temp_db = tempfile.NamedTemporaryFile(suffix=".db", delete=False)
+        config = FaissImplConfig(kvstore=SqliteKVStoreConfig(db_path=temp_db.name))
+        return FaissMemoryImpl(config)
+
+    @pytest.mark.asyncio
+    async def test_initialize(self, faiss_impl):
+        # Test empty initialization
+        await faiss_impl.initialize()
+        assert len(faiss_impl.cache) == 0
+
+        # Test initialization with existing banks
+        bank = VectorMemoryBankDef(
+            identifier="test_bank",
+            type=MemoryBankType.vector.value,
+            embedding_model="all-MiniLM-L6-v2",
+            chunk_size_in_tokens=512,
+            overlap_size_in_tokens=64,
+        )
+
+        # Register a bank and reinitialize to test loading
+        await faiss_impl.register_memory_bank(bank)
+
+        # Create new instance to test initialization with existing data
+        new_impl = FaissMemoryImpl(faiss_impl.config)
+        await new_impl.initialize()
+
+        assert len(new_impl.cache) == 1
+        assert "test_bank" in new_impl.cache
+
+    @pytest.mark.asyncio
+    async def test_register_memory_bank(self, faiss_impl):
+        bank = VectorMemoryBankDef(
+            identifier="test_bank",
+            type=MemoryBankType.vector.value,
+            embedding_model="all-MiniLM-L6-v2",
+            chunk_size_in_tokens=512,
+            overlap_size_in_tokens=64,
+        )
+
+        await faiss_impl.initialize()
+        await faiss_impl.register_memory_bank(bank)
+
+        assert "test_bank" in faiss_impl.cache
+        assert faiss_impl.cache["test_bank"].bank == bank
+
+        # Verify persistence
+        new_impl = FaissMemoryImpl(faiss_impl.config)
+        await new_impl.initialize()
+        assert "test_bank" in new_impl.cache
+
+
+if __name__ == "__main__":
+    pytest.main([__file__])
--- a/llama_stack/providers/inline/meta_reference/safety/init.py
+++ b/llama_stack/providers/inline/meta_reference/safety/init.py
@ -4,7 +4,7 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from .config import SafetyConfig
+from .config import LlamaGuardShieldConfig, SafetyConfig  # noqa: F401


 async def get_provider_impl(config: SafetyConfig, deps):
--- a/llama_stack/providers/inline/meta_reference/safety/base.py
+++ b/llama_stack/providers/inline/meta_reference/safety/base.py
--- a/llama_stack/providers/inline/meta_reference/safety/config.py
+++ b/llama_stack/providers/inline/meta_reference/safety/config.py
--- a/llama_stack/providers/inline/meta_reference/safety/llama_guard.py
+++ b/llama_stack/providers/inline/meta_reference/safety/llama_guard.py
--- a/llama_stack/providers/inline/meta_reference/safety/prompt_guard.py
+++ b/llama_stack/providers/inline/meta_reference/safety/prompt_guard.py
--- a/llama_stack/providers/inline/meta_reference/safety/safety.py
+++ b/llama_stack/providers/inline/meta_reference/safety/safety.py
@ -49,7 +49,7 @@ class MetaReferenceSafetyImpl(Safety, ShieldsProtocolPrivate):
        return [
            ShieldDef(
                identifier=shield_type,
-                type=shield_type,
+                shield_type=shield_type,
                params={},
            )
            for shield_type in self.available_shields
@ -57,13 +57,13 @@ class MetaReferenceSafetyImpl(Safety, ShieldsProtocolPrivate):

    async def run_shield(
        self,
-        shield_type: str,
+        identifier: str,
        messages: List[Message],
        params: Dict[str, Any] = None,
    ) -> RunShieldResponse:
-        shield_def = await self.shield_store.get_shield(shield_type)
+        shield_def = await self.shield_store.get_shield(identifier)
        if not shield_def:
-            raise ValueError(f"Unknown shield {shield_type}")
+            raise ValueError(f"Unknown shield {identifier}")

        shield = self.get_shield_impl(shield_def)

@ -92,14 +92,14 @@ class MetaReferenceSafetyImpl(Safety, ShieldsProtocolPrivate):
        return RunShieldResponse(violation=violation)

    def get_shield_impl(self, shield: ShieldDef) -> ShieldBase:
-        if shield.type == ShieldType.llama_guard.value:
+        if shield.shield_type == ShieldType.llama_guard.value:
            cfg = self.config.llama_guard_shield
            return LlamaGuardShield(
                model=cfg.model,
                inference_api=self.inference_api,
                excluded_categories=cfg.excluded_categories,
            )
-        elif shield.type == ShieldType.prompt_guard.value:
+        elif shield.shield_type == ShieldType.prompt_guard.value:
            model_dir = model_local_dir(PROMPT_GUARD_MODEL)
            subtype = shield.params.get("prompt_guard_type", "injection")
            if subtype == "injection":
@ -109,4 +109,4 @@ class MetaReferenceSafetyImpl(Safety, ShieldsProtocolPrivate):
            else:
                raise ValueError(f"Unknown prompt guard type: {subtype}")
        else:
-            raise ValueError(f"Unknown shield type: {shield.type}")
+            raise ValueError(f"Unknown shield type: {shield.shield_type}")
--- a/llama_stack/providers/inline/meta_reference/scoring/init.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/init.py
--- a/llama_stack/providers/inline/meta_reference/scoring/config.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/config.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring.py
@ -13,15 +13,15 @@ from llama_stack.apis.datasetio import *  # noqa: F403
 from llama_stack.apis.datasets import *  # noqa: F403
 from llama_stack.apis.inference.inference import Inference
 from llama_stack.providers.datatypes import ScoringFunctionsProtocolPrivate
-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.equality_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.equality_scoring_fn import (
    EqualityScoringFn,
 )

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.llm_as_judge_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.llm_as_judge_scoring_fn import (
    LlmAsJudgeScoringFn,
 )

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.subset_of_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.subset_of_scoring_fn import (
    SubsetOfScoringFn,
 )

--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/init.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/init.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/base_scoring_fn.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/base_scoring_fn.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/common.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/common.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/equality_scoring_fn.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/equality_scoring_fn.py
@ -4,18 +4,18 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.base_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.base_scoring_fn import (
    BaseScoringFn,
 )
 from llama_stack.apis.scoring_functions import *  # noqa: F401, F403
 from llama_stack.apis.scoring import *  # noqa: F401, F403
 from llama_stack.apis.common.type_system import *  # noqa: F403

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.common import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.common import (
    aggregate_accuracy,
 )

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.fn_defs.equality import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.fn_defs.equality import (
    equality,
 )

--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/init.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/init.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/equality.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/equality.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/llm_as_judge_8b_correctness.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/llm_as_judge_8b_correctness.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/subset_of.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/fn_defs/subset_of.py
--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/llm_as_judge_scoring_fn.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/llm_as_judge_scoring_fn.py
@ -4,7 +4,7 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from llama_stack.apis.inference.inference import Inference
-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.base_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.base_scoring_fn import (
    BaseScoringFn,
 )
 from llama_stack.apis.scoring_functions import *  # noqa: F401, F403
@ -12,10 +12,10 @@ from llama_stack.apis.scoring import *  # noqa: F401, F403
 from llama_stack.apis.common.type_system import *  # noqa: F403
 import re

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.common import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.common import (
    aggregate_average,
 )
-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.fn_defs.llm_as_judge_8b_correctness import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.fn_defs.llm_as_judge_8b_correctness import (
    llm_as_judge_8b_correctness,
 )

--- a/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/subset_of_scoring_fn.py
+++ b/llama_stack/providers/inline/meta_reference/scoring/scoring_fn/subset_of_scoring_fn.py
@ -4,17 +4,17 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.base_scoring_fn import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.base_scoring_fn import (
    BaseScoringFn,
 )
 from llama_stack.apis.scoring_functions import *  # noqa: F401, F403
 from llama_stack.apis.scoring import *  # noqa: F401, F403
 from llama_stack.apis.common.type_system import *  # noqa: F403
-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.common import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.common import (
    aggregate_accuracy,
 )

-from llama_stack.providers.impls.meta_reference.scoring.scoring_fn.fn_defs.subset_of import (
+from llama_stack.providers.inline.meta_reference.scoring.scoring_fn.fn_defs.subset_of import (
    subset_of,
 )

--- a/llama_stack/providers/inline/meta_reference/telemetry/init.py
+++ b/llama_stack/providers/inline/meta_reference/telemetry/init.py
--- a/llama_stack/providers/inline/meta_reference/telemetry/config.py
+++ b/llama_stack/providers/inline/meta_reference/telemetry/config.py
--- a/llama_stack/providers/inline/meta_reference/telemetry/console.py
+++ b/llama_stack/providers/inline/meta_reference/telemetry/console.py
--- a/llama_stack/providers/inline/vllm/init.py
+++ b/llama_stack/providers/inline/vllm/init.py
--- a/llama_stack/providers/inline/vllm/config.py
+++ b/llama_stack/providers/inline/vllm/config.py
--- a/llama_stack/providers/inline/vllm/vllm.py
+++ b/llama_stack/providers/inline/vllm/vllm.py
--- a/llama_stack/providers/registry/agents.py
+++ b/llama_stack/providers/registry/agents.py
@ -22,8 +22,8 @@ def available_providers() -> List[ProviderSpec]:
                "scikit-learn",
            ]
            + kvstore_dependencies(),
-            module="llama_stack.providers.impls.meta_reference.agents",
-            config_class="llama_stack.providers.impls.meta_reference.agents.MetaReferenceAgentsImplConfig",
+            module="llama_stack.providers.inline.meta_reference.agents",
+            config_class="llama_stack.providers.inline.meta_reference.agents.MetaReferenceAgentsImplConfig",
            api_dependencies=[
                Api.inference,
                Api.safety,
@ -36,8 +36,8 @@ def available_providers() -> List[ProviderSpec]:
            adapter=AdapterSpec(
                adapter_type="sample",
                pip_packages=[],
-                module="llama_stack.providers.adapters.agents.sample",
-                config_class="llama_stack.providers.adapters.agents.sample.SampleConfig",
+                module="llama_stack.providers.remote.agents.sample",
+                config_class="llama_stack.providers.remote.agents.sample.SampleConfig",
            ),
        ),
    ]
--- a/llama_stack/providers/registry/datasetio.py
+++ b/llama_stack/providers/registry/datasetio.py
@ -15,8 +15,8 @@ def available_providers() -> List[ProviderSpec]:
            api=Api.datasetio,
            provider_type="meta-reference",
            pip_packages=["pandas"],
-            module="llama_stack.providers.impls.meta_reference.datasetio",
-            config_class="llama_stack.providers.impls.meta_reference.datasetio.MetaReferenceDatasetIOConfig",
+            module="llama_stack.providers.inline.meta_reference.datasetio",
+            config_class="llama_stack.providers.inline.meta_reference.datasetio.MetaReferenceDatasetIOConfig",
            api_dependencies=[],
        ),
    ]
--- a/llama_stack/providers/registry/eval.py
+++ b/llama_stack/providers/registry/eval.py
@ -15,8 +15,8 @@ def available_providers() -> List[ProviderSpec]:
            api=Api.eval,
            provider_type="meta-reference",
            pip_packages=[],
-            module="llama_stack.providers.impls.meta_reference.eval",
-            config_class="llama_stack.providers.impls.meta_reference.eval.MetaReferenceEvalConfig",
+            module="llama_stack.providers.inline.meta_reference.eval",
+            config_class="llama_stack.providers.inline.meta_reference.eval.MetaReferenceEvalConfig",
            api_dependencies=[
                Api.datasetio,
                Api.datasets,
--- a/Show more
+++ b/Show more