fix: rename llama_stack_api dir (#4155)

# What does this PR do? the directory structure was src/llama-stack-api/llama_stack_api instead it should just be src/llama_stack_api to match the other packages. update the structure and pyproject/linting config --------- Signed-off-by: Charlie Doern <cdoern@redhat.com> Co-authored-by: Ashwin Bharambe <ashwin.bharambe@gmail.com>
2025-12-03 18:00:36 +00:00 · 2025-11-13 18:04:36 -05:00 · 2025-11-13 18:04:36 -05:00 · a078f089d9
commit a078f089d9
parent ba744d791a
275 changed files with 1187 additions and 745 deletions
--- a/src/llama_stack/providers/inline/agents/meta_reference/agents.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/agents.py
@ -5,6 +5,10 @@
 # the root directory of this source tree.


+from llama_stack.core.datatypes import AccessRule
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import InmemoryKVStoreImpl, kvstore_impl
+from llama_stack.providers.utils.responses.responses_store import ResponsesStore
 from llama_stack_api import (
    Agents,
    Conversations,
@ -25,11 +29,6 @@ from llama_stack_api import (
    VectorIO,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import InmemoryKVStoreImpl, kvstore_impl
-from llama_stack.providers.utils.responses.responses_store import ResponsesStore
-
 from .config import MetaReferenceAgentsImplConfig
 from .responses.openai_responses import OpenAIResponsesImpl

--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
@ -8,6 +8,13 @@ import time
 import uuid
 from collections.abc import AsyncIterator

+from pydantic import BaseModel, TypeAdapter
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.responses.responses_store import (
+    ResponsesStore,
+    _OpenAIResponseObjectWithInputAndMessages,
+)
 from llama_stack_api import (
    ConversationItem,
    Conversations,
@ -34,13 +41,6 @@ from llama_stack_api import (
    ToolRuntime,
    VectorIO,
 )
-from pydantic import BaseModel, TypeAdapter
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.responses.responses_store import (
-    ResponsesStore,
-    _OpenAIResponseObjectWithInputAndMessages,
-)

 from .streaming import StreamingResponseOrchestrator
 from .tool_executor import ToolExecutor
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
@ -8,6 +8,9 @@ import uuid
 from collections.abc import AsyncIterator
 from typing import Any

+from llama_stack.core.telemetry import tracing
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
 from llama_stack_api import (
    AllowedToolsFilter,
    ApprovalFilter,
@ -65,10 +68,6 @@ from llama_stack_api import (
    WebSearchToolTypes,
 )

-from llama_stack.core.telemetry import tracing
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
-
 from .types import ChatCompletionContext, ChatCompletionResult
 from .utils import (
    convert_chat_choice_to_response_message,
@ -1022,11 +1021,11 @@ class StreamingResponseOrchestrator:
        self, tools: list[OpenAIResponseInputTool], output_messages: list[OpenAIResponseOutput]
    ) -> AsyncIterator[OpenAIResponseObjectStream]:
        """Process all tools and emit appropriate streaming events."""
-        from llama_stack_api import ToolDef
        from openai.types.chat import ChatCompletionToolParam

        from llama_stack.models.llama.datatypes import ToolDefinition
        from llama_stack.providers.utils.inference.openai_compat import convert_tooldef_to_openai_tool
+        from llama_stack_api import ToolDef

        def make_openai_tool(tool_name: str, tool: ToolDef) -> ChatCompletionToolParam:
            tool_def = ToolDefinition(
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
@ -9,6 +9,8 @@ import json
 from collections.abc import AsyncIterator
 from typing import Any

+from llama_stack.core.telemetry import tracing
+from llama_stack.log import get_logger
 from llama_stack_api import (
    ImageContentItem,
    OpenAIChatCompletionContentPartImageParam,
@ -37,9 +39,6 @@ from llama_stack_api import (
    VectorIO,
 )

-from llama_stack.core.telemetry import tracing
-from llama_stack.log import get_logger
-
 from .types import ChatCompletionContext, ToolExecutionResult

 logger = get_logger(name=__name__, category="agents::meta_reference")
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/types.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/types.py
@ -7,6 +7,9 @@
 from dataclasses import dataclass
 from typing import cast

+from openai.types.chat import ChatCompletionToolParam
+from pydantic import BaseModel
+
 from llama_stack_api import (
    OpenAIChatCompletionToolCall,
    OpenAIMessageParam,
@ -26,8 +29,6 @@ from llama_stack_api import (
    OpenAIResponseTool,
    OpenAIResponseToolMCP,
 )
-from openai.types.chat import ChatCompletionToolParam
-from pydantic import BaseModel


 class ToolExecutionResult(BaseModel):
--- a/src/llama_stack/providers/inline/agents/meta_reference/safety.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/safety.py
@ -6,10 +6,9 @@

 import asyncio

-from llama_stack_api import OpenAIMessageParam, Safety, SafetyViolation, ViolationLevel
-
 from llama_stack.core.telemetry import tracing
 from llama_stack.log import get_logger
+from llama_stack_api import OpenAIMessageParam, Safety, SafetyViolation, ViolationLevel

 log = get_logger(name=__name__, category="agents::meta_reference")

--- a/src/llama_stack/providers/inline/batches/reference/init.py
+++ b/src/llama_stack/providers/inline/batches/reference/init.py
@ -6,10 +6,9 @@

 from typing import Any

-from llama_stack_api import Files, Inference, Models
-
 from llama_stack.core.datatypes import AccessRule, Api
 from llama_stack.providers.utils.kvstore import kvstore_impl
+from llama_stack_api import Files, Inference, Models

 from .batches import ReferenceBatchesImpl
 from .config import ReferenceBatchesImplConfig
--- a/src/llama_stack/providers/inline/batches/reference/batches.py
+++ b/src/llama_stack/providers/inline/batches/reference/batches.py
@ -13,6 +13,11 @@ import uuid
 from io import BytesIO
 from typing import Any, Literal

+from openai.types.batch import BatchError, Errors
+from pydantic import BaseModel
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import KVStore
 from llama_stack_api import (
    Batches,
    BatchObject,
@ -33,11 +38,6 @@ from llama_stack_api import (
    OpenAIUserMessageParam,
    ResourceNotFoundError,
 )
-from openai.types.batch import BatchError, Errors
-from pydantic import BaseModel
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import KVStore

 from .config import ReferenceBatchesImplConfig

--- a/src/llama_stack/providers/inline/datasetio/localfs/datasetio.py
+++ b/src/llama_stack/providers/inline/datasetio/localfs/datasetio.py
@ -5,11 +5,10 @@
 # the root directory of this source tree.
 from typing import Any

-from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse
-
 from llama_stack.providers.utils.datasetio.url_utils import get_dataframe_from_uri
 from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack.providers.utils.pagination import paginate_records
+from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse

 from .config import LocalFSDatasetIOConfig

--- a/src/llama_stack/providers/inline/eval/meta_reference/eval.py
+++ b/src/llama_stack/providers/inline/eval/meta_reference/eval.py
@ -6,6 +6,10 @@
 import json
 from typing import Any

+from tqdm import tqdm
+
+from llama_stack.providers.utils.common.data_schema_validator import ColumnName
+from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack_api import (
    Agents,
    Benchmark,
@ -24,10 +28,6 @@ from llama_stack_api import (
    OpenAIUserMessageParam,
    Scoring,
 )
-from tqdm import tqdm
-
-from llama_stack.providers.utils.common.data_schema_validator import ColumnName
-from llama_stack.providers.utils.kvstore import kvstore_impl

 from .config import MetaReferenceEvalConfig

--- a/src/llama_stack/providers/inline/files/localfs/files.py
+++ b/src/llama_stack/providers/inline/files/localfs/files.py
@ -10,6 +10,14 @@ from pathlib import Path
 from typing import Annotated

 from fastapi import Depends, File, Form, Response, UploadFile
+
+from llama_stack.core.datatypes import AccessRule
+from llama_stack.core.id_generation import generate_object_id
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -21,14 +29,6 @@ from llama_stack_api import (
    ResourceNotFoundError,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.core.id_generation import generate_object_id
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
-
 from .config import LocalfsFilesImplConfig

 logger = get_logger(name=__name__, category="files")
--- a/src/llama_stack/providers/inline/inference/meta_reference/config.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import QuantizationConfig
 from pydantic import BaseModel, field_validator

 from llama_stack.providers.utils.inference import supported_inference_models
+from llama_stack_api import QuantizationConfig


 class MetaReferenceInferenceConfig(BaseModel):
--- a/src/llama_stack/providers/inline/inference/meta_reference/generators.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/generators.py
@ -8,6 +8,14 @@ import math
 from typing import Optional

 import torch
+from lmformatenforcer import JsonSchemaParser, TokenEnforcer, TokenEnforcerTokenizerData
+
+from llama_stack.models.llama.datatypes import QuantizationMode, ToolPromptFormat
+from llama_stack.models.llama.llama3.generation import Llama3
+from llama_stack.models.llama.llama3.tokenizer import Tokenizer as Llama3Tokenizer
+from llama_stack.models.llama.llama4.generation import Llama4
+from llama_stack.models.llama.llama4.tokenizer import Tokenizer as Llama4Tokenizer
+from llama_stack.models.llama.sku_types import Model, ModelFamily
 from llama_stack_api import (
    GreedySamplingStrategy,
    JsonSchemaResponseFormat,
@ -18,14 +26,6 @@ from llama_stack_api import (
    SamplingParams,
    TopPSamplingStrategy,
 )
-from lmformatenforcer import JsonSchemaParser, TokenEnforcer, TokenEnforcerTokenizerData
-
-from llama_stack.models.llama.datatypes import QuantizationMode, ToolPromptFormat
-from llama_stack.models.llama.llama3.generation import Llama3
-from llama_stack.models.llama.llama3.tokenizer import Tokenizer as Llama3Tokenizer
-from llama_stack.models.llama.llama4.generation import Llama4
-from llama_stack.models.llama.llama4.tokenizer import Tokenizer as Llama4Tokenizer
-from llama_stack.models.llama.sku_types import Model, ModelFamily

 from .common import model_checkpoint_dir
 from .config import MetaReferenceInferenceConfig
--- a/src/llama_stack/providers/inline/inference/meta_reference/inference.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/inference.py
@ -9,23 +9,6 @@ import time
 import uuid
 from collections.abc import AsyncIterator

-from llama_stack_api import (
-    InferenceProvider,
-    Model,
-    ModelsProtocolPrivate,
-    ModelType,
-    OpenAIAssistantMessageParam,
-    OpenAIChatCompletion,
-    OpenAIChatCompletionChunk,
-    OpenAIChatCompletionRequestWithExtraBody,
-    OpenAIChatCompletionUsage,
-    OpenAIChoice,
-    OpenAICompletion,
-    OpenAICompletionRequestWithExtraBody,
-    OpenAIUserMessageParam,
-    ToolChoice,
-)
-
 from llama_stack.log import get_logger
 from llama_stack.models.llama.datatypes import RawMessage, RawTextItem, ToolDefinition
 from llama_stack.models.llama.llama3.chat_format import ChatFormat as Llama3ChatFormat
@ -48,6 +31,22 @@ from llama_stack.providers.utils.inference.model_registry import (
    ModelRegistryHelper,
    build_hf_repo_model_entry,
 )
+from llama_stack_api import (
+    InferenceProvider,
+    Model,
+    ModelsProtocolPrivate,
+    ModelType,
+    OpenAIAssistantMessageParam,
+    OpenAIChatCompletion,
+    OpenAIChatCompletionChunk,
+    OpenAIChatCompletionRequestWithExtraBody,
+    OpenAIChatCompletionUsage,
+    OpenAIChoice,
+    OpenAICompletion,
+    OpenAICompletionRequestWithExtraBody,
+    OpenAIUserMessageParam,
+    ToolChoice,
+)

 from .config import MetaReferenceInferenceConfig
 from .generators import LlamaGenerator
@ -441,6 +440,8 @@ class MetaReferenceInferenceImpl(
        params: OpenAIChatCompletionRequestWithExtraBody,
    ) -> AsyncIterator[OpenAIChatCompletionChunk]:
        """Stream chat completion chunks as they're generated."""
+        from llama_stack.models.llama.datatypes import StopReason
+        from llama_stack.providers.utils.inference.prompt_adapter import decode_assistant_message
        from llama_stack_api import (
            OpenAIChatCompletionChunk,
            OpenAIChatCompletionToolCall,
@ -449,9 +450,6 @@ class MetaReferenceInferenceImpl(
            OpenAIChunkChoice,
        )

-        from llama_stack.models.llama.datatypes import StopReason
-        from llama_stack.providers.utils.inference.prompt_adapter import decode_assistant_message
-
        response_id = f"chatcmpl-{uuid.uuid4().hex[:24]}"
        created = int(time.time())
        generated_text = ""
--- a/src/llama_stack/providers/inline/inference/sentence_transformers/sentence_transformers.py
+++ b/src/llama_stack/providers/inline/inference/sentence_transformers/sentence_transformers.py
@ -6,6 +6,10 @@

 from collections.abc import AsyncIterator

+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.embedding_mixin import (
+    SentenceTransformerEmbeddingMixin,
+)
 from llama_stack_api import (
    InferenceProvider,
    Model,
@ -18,11 +22,6 @@ from llama_stack_api import (
    OpenAICompletionRequestWithExtraBody,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.embedding_mixin import (
-    SentenceTransformerEmbeddingMixin,
-)
-
 from .config import SentenceTransformersInferenceConfig

 log = get_logger(name=__name__, category="inference")
--- a/src/llama_stack/providers/inline/post_training/common/validator.py
+++ b/src/llama_stack/providers/inline/post_training/common/validator.py
@ -12,11 +12,10 @@

 from typing import Any

-from llama_stack_api import ChatCompletionInputType, DialogType, StringType
-
 from llama_stack.providers.utils.common.data_schema_validator import (
    ColumnName,
 )
+from llama_stack_api import ChatCompletionInputType, DialogType, StringType

 EXPECTED_DATASET_SCHEMA: dict[str, list[dict[str, Any]]] = {
    "instruct": [
--- a/src/llama_stack/providers/inline/post_training/huggingface/post_training.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/post_training.py
@ -6,6 +6,11 @@
 from enum import Enum
 from typing import Any

+from llama_stack.providers.inline.post_training.huggingface.config import (
+    HuggingFacePostTrainingConfig,
+)
+from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
+from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
 from llama_stack_api import (
    AlgorithmConfig,
    Checkpoint,
@ -20,12 +25,6 @@ from llama_stack_api import (
    TrainingConfig,
 )

-from llama_stack.providers.inline.post_training.huggingface.config import (
-    HuggingFacePostTrainingConfig,
-)
-from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
-from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
-

 class TrainingArtifactType(Enum):
    CHECKPOINT = "checkpoint"
--- a/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device.py
@ -12,14 +12,6 @@ from typing import Any

 import torch
 from datasets import Dataset
-from llama_stack_api import (
-    Checkpoint,
-    DataConfig,
-    DatasetIO,
-    Datasets,
-    LoraFinetuningConfig,
-    TrainingConfig,
-)
 from peft import LoraConfig
 from transformers import (
    AutoTokenizer,
@ -28,6 +20,14 @@ from trl import SFTConfig, SFTTrainer

 from llama_stack.log import get_logger
 from llama_stack.providers.inline.post_training.common.utils import evacuate_model_from_device
+from llama_stack_api import (
+    Checkpoint,
+    DataConfig,
+    DatasetIO,
+    Datasets,
+    LoraFinetuningConfig,
+    TrainingConfig,
+)

 from ..config import HuggingFacePostTrainingConfig
 from ..utils import (
--- a/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device_dpo.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device_dpo.py
@ -11,13 +11,6 @@ from typing import Any

 import torch
 from datasets import Dataset
-from llama_stack_api import (
-    Checkpoint,
-    DatasetIO,
-    Datasets,
-    DPOAlignmentConfig,
-    TrainingConfig,
-)
 from transformers import (
    AutoTokenizer,
 )
@ -25,6 +18,13 @@ from trl import DPOConfig, DPOTrainer

 from llama_stack.log import get_logger
 from llama_stack.providers.inline.post_training.common.utils import evacuate_model_from_device
+from llama_stack_api import (
+    Checkpoint,
+    DatasetIO,
+    Datasets,
+    DPOAlignmentConfig,
+    TrainingConfig,
+)

 from ..config import HuggingFacePostTrainingConfig
 from ..utils import (
--- a/src/llama_stack/providers/inline/post_training/huggingface/utils.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/utils.py
@ -14,9 +14,10 @@ from typing import TYPE_CHECKING, Any, Protocol
 import psutil
 import torch
 from datasets import Dataset
-from llama_stack_api import Checkpoint, DatasetIO, TrainingConfig
 from transformers import AutoConfig, AutoModelForCausalLM

+from llama_stack_api import Checkpoint, DatasetIO, TrainingConfig
+
 if TYPE_CHECKING:
    from transformers import PretrainedConfig

--- a/src/llama_stack/providers/inline/post_training/torchtune/common/utils.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/common/utils.py
@ -13,7 +13,6 @@
 from collections.abc import Callable

 import torch
-from llama_stack_api import DatasetFormat
 from pydantic import BaseModel
 from torchtune.data._messages import InputOutputToMessages, ShareGPTToMessages
 from torchtune.models.llama3 import llama3_tokenizer
@ -24,6 +23,7 @@ from torchtune.modules.transforms import Transform

 from llama_stack.models.llama.sku_list import resolve_model
 from llama_stack.models.llama.sku_types import Model
+from llama_stack_api import DatasetFormat

 BuildLoraModelCallable = Callable[..., torch.nn.Module]
 BuildTokenizerCallable = Callable[..., Llama3Tokenizer]
--- a/src/llama_stack/providers/inline/post_training/torchtune/post_training.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/post_training.py
@ -6,6 +6,11 @@
 from enum import Enum
 from typing import Any

+from llama_stack.providers.inline.post_training.torchtune.config import (
+    TorchtunePostTrainingConfig,
+)
+from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
+from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
 from llama_stack_api import (
    AlgorithmConfig,
    Checkpoint,
@ -21,12 +26,6 @@ from llama_stack_api import (
    TrainingConfig,
 )

-from llama_stack.providers.inline.post_training.torchtune.config import (
-    TorchtunePostTrainingConfig,
-)
-from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
-from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
-

 class TrainingArtifactType(Enum):
    CHECKPOINT = "checkpoint"
--- a/src/llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py
@ -12,17 +12,6 @@ from pathlib import Path
 from typing import Any

 import torch
-from llama_stack_api import (
-    Checkpoint,
-    DataConfig,
-    DatasetIO,
-    Datasets,
-    LoraFinetuningConfig,
-    OptimizerConfig,
-    PostTrainingMetric,
-    QATFinetuningConfig,
-    TrainingConfig,
-)
 from torch import nn
 from torch.optim import Optimizer
 from torch.utils.data import DataLoader, DistributedSampler
@ -56,6 +45,17 @@ from llama_stack.providers.inline.post_training.torchtune.config import (
    TorchtunePostTrainingConfig,
 )
 from llama_stack.providers.inline.post_training.torchtune.datasets.sft import SFTDataset
+from llama_stack_api import (
+    Checkpoint,
+    DataConfig,
+    DatasetIO,
+    Datasets,
+    LoraFinetuningConfig,
+    OptimizerConfig,
+    PostTrainingMetric,
+    QATFinetuningConfig,
+    TrainingConfig,
+)

 log = get_logger(name=__name__, category="post_training")

--- a/src/llama_stack/providers/inline/safety/code_scanner/code_scanner.py
+++ b/src/llama_stack/providers/inline/safety/code_scanner/code_scanner.py
@ -10,6 +10,10 @@ from typing import TYPE_CHECKING, Any
 if TYPE_CHECKING:
    from codeshield.cs import CodeShieldScanResult

+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    ModerationObject,
    ModerationObjectResults,
@ -21,11 +25,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-
 from .config import CodeScannerConfig

 log = get_logger(name=__name__, category="safety")
--- a/src/llama_stack/providers/inline/safety/llama_guard/llama_guard.py
+++ b/src/llama_stack/providers/inline/safety/llama_guard/llama_guard.py
@ -9,6 +9,13 @@ import uuid
 from string import Template
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.log import get_logger
+from llama_stack.models.llama.datatypes import Role
+from llama_stack.models.llama.sku_types import CoreModelId
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    ImageContentItem,
    Inference,
@ -26,14 +33,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.log import get_logger
-from llama_stack.models.llama.datatypes import Role
-from llama_stack.models.llama.sku_types import CoreModelId
-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-
 from .config import LlamaGuardConfig

 CANNED_RESPONSE_TEXT = "I can't answer that. Can I help with something else?"
--- a/src/llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py
+++ b/src/llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py
@ -7,6 +7,11 @@
 from typing import Any

 import torch
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+
+from llama_stack.core.utils.model_utils import model_local_dir
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
 from llama_stack_api import (
    ModerationObject,
    OpenAIMessageParam,
@ -18,11 +23,6 @@ from llama_stack_api import (
    ShieldStore,
    ViolationLevel,
 )
-from transformers import AutoModelForSequenceClassification, AutoTokenizer
-
-from llama_stack.core.utils.model_utils import model_local_dir
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str

 from .config import PromptGuardConfig, PromptGuardType

--- a/src/llama_stack/providers/inline/scoring/basic/scoring.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring.py
@ -5,6 +5,11 @@
 # the root directory of this source tree.
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+)
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -17,12 +22,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-)
-
 from .config import BasicScoringConfig
 from .scoring_fn.docvqa_scoring_fn import DocVQAScoringFn
 from .scoring_fn.equality_scoring_fn import EqualityScoringFn
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/docvqa_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/docvqa_scoring_fn.py
@ -8,9 +8,8 @@ import json
 import re
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.docvqa import docvqa

--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.equality import equality

--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/ifeval_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/ifeval_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.ifeval import (
    ifeval,
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_math_response_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_math_response_scoring_fn.py
@ -5,9 +5,8 @@
 # the root directory of this source tree.
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow

 from ..utils.math_utils import first_answer, normalize_final_answer, try_evaluate_frac, try_evaluate_latex
 from .fn_defs.regex_parser_math_response import (
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
@ -6,9 +6,8 @@
 import re
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow

 from .fn_defs.regex_parser_multiple_choice_answer import (
    regex_parser_multiple_choice_answer,
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.subset_of import subset_of

--- a/src/llama_stack/providers/inline/scoring/braintrust/braintrust.py
+++ b/src/llama_stack/providers/inline/scoring/braintrust/braintrust.py
@ -17,6 +17,16 @@ from autoevals.ragas import (
    ContextRelevancy,
    Faithfulness,
 )
+from pydantic import BaseModel
+
+from llama_stack.core.datatypes import Api
+from llama_stack.core.request_headers import NeedsRequestProviderData
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+    validate_row_schema,
+)
+from llama_stack.providers.utils.scoring.aggregation_utils import aggregate_metrics
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -29,16 +39,6 @@ from llama_stack_api import (
    ScoringResult,
    ScoringResultRow,
 )
-from pydantic import BaseModel
-
-from llama_stack.core.datatypes import Api
-from llama_stack.core.request_headers import NeedsRequestProviderData
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-    validate_row_schema,
-)
-from llama_stack.providers.utils.scoring.aggregation_utils import aggregate_metrics

 from .config import BraintrustScoringConfig
 from .scoring_fn.fn_defs.answer_correctness import answer_correctness_fn_def
--- a/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
+++ b/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
@ -5,6 +5,11 @@
 # the root directory of this source tree.
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+)
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -18,12 +23,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-)
-
 from .config import LlmAsJudgeScoringConfig
 from .scoring_fn.llm_as_judge_scoring_fn import LlmAsJudgeScoringFn

--- a/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
@ -6,9 +6,8 @@
 import re
 from typing import Any

-from llama_stack_api import Inference, OpenAIChatCompletionRequestWithExtraBody, ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import Inference, OpenAIChatCompletionRequestWithExtraBody, ScoringFnParams, ScoringResultRow

 from .fn_defs.llm_as_judge_405b_simpleqa import llm_as_judge_405b_simpleqa
 from .fn_defs.llm_as_judge_base import llm_as_judge_base
--- a/src/llama_stack/providers/inline/tool_runtime/rag/context_retriever.py
+++ b/src/llama_stack/providers/inline/tool_runtime/rag/context_retriever.py
@ -6,6 +6,10 @@


 from jinja2 import Template
+
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    DefaultRAGQueryGeneratorConfig,
    InterleavedContent,
@ -16,10 +20,6 @@ from llama_stack_api import (
    RAGQueryGeneratorConfig,
 )

-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-

 async def generate_rag_query(
    config: RAGQueryGeneratorConfig,
--- a/src/llama_stack/providers/inline/tool_runtime/rag/memory.py
+++ b/src/llama_stack/providers/inline/tool_runtime/rag/memory.py
@ -12,6 +12,11 @@ from typing import Any

 import httpx
 from fastapi import UploadFile
+from pydantic import TypeAdapter
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
+from llama_stack.providers.utils.memory.vector_store import parse_data_url
 from llama_stack_api import (
    URL,
    Files,
@ -34,11 +39,6 @@ from llama_stack_api import (
    VectorStoreChunkingStrategyStatic,
    VectorStoreChunkingStrategyStaticConfig,
 )
-from pydantic import TypeAdapter
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
-from llama_stack.providers.utils.memory.vector_store import parse_data_url

 from .config import RagToolRuntimeConfig
 from .context_retriever import generate_rag_query
--- a/src/llama_stack/providers/inline/vector_io/chroma/config.py
+++ b/src/llama_stack/providers/inline/vector_io/chroma/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/faiss/config.py
+++ b/src/llama_stack/providers/inline/vector_io/faiss/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/faiss/faiss.py
+++ b/src/llama_stack/providers/inline/vector_io/faiss/faiss.py
@ -12,6 +12,13 @@ from typing import Any

 import faiss  # type: ignore[import-untyped]
 import numpy as np
+from numpy.typing import NDArray
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import kvstore_impl
+from llama_stack.providers.utils.kvstore.api import KVStore
+from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
+from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex
 from llama_stack_api import (
    Chunk,
    Files,
@ -25,13 +32,6 @@ from llama_stack_api import (
    VectorStoreNotFoundError,
    VectorStoresProtocolPrivate,
 )
-from numpy.typing import NDArray
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import kvstore_impl
-from llama_stack.providers.utils.kvstore.api import KVStore
-from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
-from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex

 from .config import FaissVectorIOConfig

--- a/src/llama_stack/providers/inline/vector_io/milvus/config.py
+++ b/src/llama_stack/providers/inline/vector_io/milvus/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/qdrant/config.py
+++ b/src/llama_stack/providers/inline/vector_io/qdrant/config.py
@ -7,10 +7,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py
+++ b/src/llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py
@ -12,16 +12,6 @@ from typing import Any

 import numpy as np
 import sqlite_vec  # type: ignore[import-untyped]
-from llama_stack_api import (
-    Chunk,
-    Files,
-    Inference,
-    QueryChunksResponse,
-    VectorIO,
-    VectorStore,
-    VectorStoreNotFoundError,
-    VectorStoresProtocolPrivate,
-)
 from numpy.typing import NDArray

 from llama_stack.log import get_logger
@ -35,6 +25,16 @@ from llama_stack.providers.utils.memory.vector_store import (
    VectorStoreWithIndex,
 )
 from llama_stack.providers.utils.vector_io.vector_utils import WeightedInMemoryAggregator
+from llama_stack_api import (
+    Chunk,
+    Files,
+    Inference,
+    QueryChunksResponse,
+    VectorIO,
+    VectorStore,
+    VectorStoreNotFoundError,
+    VectorStoresProtocolPrivate,
+)

 logger = get_logger(name=__name__, category="vector_io")

--- a/src/llama_stack/providers/registry/agents.py
+++ b/src/llama_stack/providers/registry/agents.py
@ -5,14 +5,13 @@
 # the root directory of this source tree.


+from llama_stack.providers.utils.kvstore import kvstore_dependencies
 from llama_stack_api import (
    Api,
    InlineProviderSpec,
    ProviderSpec,
 )

-from llama_stack.providers.utils.kvstore import kvstore_dependencies
-

 def available_providers() -> list[ProviderSpec]:
    return [
--- a/src/llama_stack/providers/registry/files.py
+++ b/src/llama_stack/providers/registry/files.py
@ -4,9 +4,8 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack_api import Api, InlineProviderSpec, ProviderSpec, RemoteProviderSpec
-
 from llama_stack.providers.utils.sqlstore.sqlstore import sql_store_pip_packages
+from llama_stack_api import Api, InlineProviderSpec, ProviderSpec, RemoteProviderSpec


 def available_providers() -> list[ProviderSpec]:
--- a/src/llama_stack/providers/registry/tool_runtime.py
+++ b/src/llama_stack/providers/registry/tool_runtime.py
@ -5,6 +5,7 @@
 # the root directory of this source tree.


+from llama_stack.providers.registry.vector_io import DEFAULT_VECTOR_IO_DEPS
 from llama_stack_api import (
    Api,
    InlineProviderSpec,
@ -12,8 +13,6 @@ from llama_stack_api import (
    RemoteProviderSpec,
 )

-from llama_stack.providers.registry.vector_io import DEFAULT_VECTOR_IO_DEPS
-

 def available_providers() -> list[ProviderSpec]:
    return [
--- a/src/llama_stack/providers/remote/datasetio/huggingface/huggingface.py
+++ b/src/llama_stack/providers/remote/datasetio/huggingface/huggingface.py
@ -6,10 +6,9 @@
 from typing import Any
 from urllib.parse import parse_qs, urlparse

-from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse
-
 from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack.providers.utils.pagination import paginate_records
+from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse

 from .config import HuggingfaceDatasetIOConfig

--- a/src/llama_stack/providers/remote/datasetio/nvidia/datasetio.py
+++ b/src/llama_stack/providers/remote/datasetio/nvidia/datasetio.py
@ -7,6 +7,7 @@
 from typing import Any

 import aiohttp
+
 from llama_stack_api import URL, Dataset, PaginatedResponse, ParamType

 from .config import NvidiaDatasetIOConfig
--- a/src/llama_stack/providers/remote/eval/nvidia/eval.py
+++ b/src/llama_stack/providers/remote/eval/nvidia/eval.py
@ -6,6 +6,8 @@
 from typing import Any

 import requests
+
+from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper
 from llama_stack_api import (
    Agents,
    Benchmark,
@ -22,8 +24,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper
-
 from .config import NVIDIAEvalConfig

 DEFAULT_NAMESPACE = "nvidia"
--- a/src/llama_stack/providers/remote/files/openai/files.py
+++ b/src/llama_stack/providers/remote/files/openai/files.py
@ -8,6 +8,12 @@ from datetime import UTC, datetime
 from typing import Annotated, Any

 from fastapi import Depends, File, Form, Response, UploadFile
+
+from llama_stack.core.datatypes import AccessRule
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -18,12 +24,6 @@ from llama_stack_api import (
    Order,
    ResourceNotFoundError,
 )
-
-from llama_stack.core.datatypes import AccessRule
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from openai import OpenAI

 from .config import OpenAIFilesImplConfig
--- a/src/llama_stack/providers/remote/files/s3/files.py
+++ b/src/llama_stack/providers/remote/files/s3/files.py
@ -17,6 +17,12 @@ from fastapi import Depends, File, Form, Response, UploadFile
 if TYPE_CHECKING:
    from mypy_boto3_s3.client import S3Client

+from llama_stack.core.datatypes import AccessRule
+from llama_stack.core.id_generation import generate_object_id
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -28,13 +34,6 @@ from llama_stack_api import (
    ResourceNotFoundError,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.core.id_generation import generate_object_id
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
-
 from .config import S3FilesImplConfig

 # TODO: provider data for S3 credentials
--- a/src/llama_stack/providers/remote/inference/anthropic/config.py
+++ b/src/llama_stack/providers/remote/inference/anthropic/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class AnthropicProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/azure/config.py
+++ b/src/llama_stack/providers/remote/inference/azure/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, HttpUrl, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class AzureProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/bedrock/bedrock.py
+++ b/src/llama_stack/providers/remote/inference/bedrock/bedrock.py
@ -6,6 +6,11 @@

 from collections.abc import AsyncIterator, Iterable

+from openai import AuthenticationError
+
+from llama_stack.core.telemetry.tracing import get_current_span
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIChatCompletion,
    OpenAIChatCompletionChunk,
@ -15,11 +20,6 @@ from llama_stack_api import (
    OpenAIEmbeddingsRequestWithExtraBody,
    OpenAIEmbeddingsResponse,
 )
-from openai import AuthenticationError
-
-from llama_stack.core.telemetry.tracing import get_current_span
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin

 from .config import BedrockConfig

--- a/src/llama_stack/providers/remote/inference/cerebras/cerebras.py
+++ b/src/llama_stack/providers/remote/inference/cerebras/cerebras.py
@ -6,13 +6,12 @@

 from urllib.parse import urljoin

+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIEmbeddingsRequestWithExtraBody,
    OpenAIEmbeddingsResponse,
 )

-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 from .config import CerebrasImplConfig


--- a/src/llama_stack/providers/remote/inference/cerebras/config.py
+++ b/src/llama_stack/providers/remote/inference/cerebras/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type

 DEFAULT_BASE_URL = "https://api.cerebras.ai"

--- a/src/llama_stack/providers/remote/inference/databricks/config.py
+++ b/src/llama_stack/providers/remote/inference/databricks/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class DatabricksProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/databricks/databricks.py
+++ b/src/llama_stack/providers/remote/inference/databricks/databricks.py
@ -7,10 +7,10 @@
 from collections.abc import Iterable

 from databricks.sdk import WorkspaceClient
-from llama_stack_api import OpenAICompletion, OpenAICompletionRequestWithExtraBody

 from llama_stack.log import get_logger
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
+from llama_stack_api import OpenAICompletion, OpenAICompletionRequestWithExtraBody

 from .config import DatabricksImplConfig

--- a/src/llama_stack/providers/remote/inference/fireworks/config.py
+++ b/src/llama_stack/providers/remote/inference/fireworks/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/inference/gemini/config.py
+++ b/src/llama_stack/providers/remote/inference/gemini/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class GeminiProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/gemini/gemini.py
+++ b/src/llama_stack/providers/remote/inference/gemini/gemini.py
@ -6,6 +6,7 @@

 from typing import Any

+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIEmbeddingData,
    OpenAIEmbeddingsRequestWithExtraBody,
@ -13,8 +14,6 @@ from llama_stack_api import (
    OpenAIEmbeddingUsage,
 )

-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 from .config import GeminiConfig


--- a/src/llama_stack/providers/remote/inference/groq/config.py
+++ b/src/llama_stack/providers/remote/inference/groq/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class GroqProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/llama_openai_compat/config.py
+++ b/src/llama_stack/providers/remote/inference/llama_openai_compat/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class LlamaProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/llama_openai_compat/llama.py
+++ b/src/llama_stack/providers/remote/inference/llama_openai_compat/llama.py
@ -4,6 +4,9 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

+from llama_stack.log import get_logger
+from llama_stack.providers.remote.inference.llama_openai_compat.config import LlamaCompatConfig
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAICompletion,
    OpenAICompletionRequestWithExtraBody,
@ -11,10 +14,6 @@ from llama_stack_api import (
    OpenAIEmbeddingsResponse,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.remote.inference.llama_openai_compat.config import LlamaCompatConfig
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 logger = get_logger(name=__name__, category="inference::llama_openai_compat")


--- a/src/llama_stack/providers/remote/inference/nvidia/config.py
+++ b/src/llama_stack/providers/remote/inference/nvidia/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class NVIDIAProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/nvidia/nvidia.py
+++ b/src/llama_stack/providers/remote/inference/nvidia/nvidia.py
@ -8,6 +8,9 @@
 from collections.abc import Iterable

 import aiohttp
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    Model,
    ModelType,
@ -17,9 +20,6 @@ from llama_stack_api import (
    RerankResponse,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 from . import NVIDIAConfig
 from .utils import _is_nvidia_hosted

--- a/src/llama_stack/providers/remote/inference/oci/config.py
+++ b/src/llama_stack/providers/remote/inference/oci/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class OCIProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/oci/oci.py
+++ b/src/llama_stack/providers/remote/inference/oci/oci.py
@ -10,11 +10,6 @@ from typing import Any

 import httpx
 import oci
-from llama_stack_api import (
-    ModelType,
-    OpenAIEmbeddingsRequestWithExtraBody,
-    OpenAIEmbeddingsResponse,
-)
 from oci.generative_ai.generative_ai_client import GenerativeAiClient
 from oci.generative_ai.models import ModelCollection
 from openai._base_client import DefaultAsyncHttpxClient
@ -23,6 +18,11 @@ from llama_stack.log import get_logger
 from llama_stack.providers.remote.inference.oci.auth import OciInstancePrincipalAuth, OciUserPrincipalAuth
 from llama_stack.providers.remote.inference.oci.config import OCIConfig
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
+from llama_stack_api import (
+    ModelType,
+    OpenAIEmbeddingsRequestWithExtraBody,
+    OpenAIEmbeddingsResponse,
+)

 logger = get_logger(name=__name__, category="inference::oci")

--- a/src/llama_stack/providers/remote/inference/ollama/ollama.py
+++ b/src/llama_stack/providers/remote/inference/ollama/ollama.py
@ -7,17 +7,17 @@

 import asyncio

+from ollama import AsyncClient as AsyncOllamaClient
+
+from llama_stack.log import get_logger
+from llama_stack.providers.remote.inference.ollama.config import OllamaImplConfig
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    HealthResponse,
    HealthStatus,
    Model,
    UnsupportedModelError,
 )
-from ollama import AsyncClient as AsyncOllamaClient
-
-from llama_stack.log import get_logger
-from llama_stack.providers.remote.inference.ollama.config import OllamaImplConfig
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin

 logger = get_logger(name=__name__, category="inference::ollama")

--- a/src/llama_stack/providers/remote/inference/openai/config.py
+++ b/src/llama_stack/providers/remote/inference/openai/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class OpenAIProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/passthrough/config.py
+++ b/src/llama_stack/providers/remote/inference/passthrough/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/inference/passthrough/passthrough.py
+++ b/src/llama_stack/providers/remote/inference/passthrough/passthrough.py
@ -6,6 +6,9 @@

 from collections.abc import AsyncIterator

+from openai import AsyncOpenAI
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
 from llama_stack_api import (
    Inference,
    Model,
@ -17,9 +20,6 @@ from llama_stack_api import (
    OpenAIEmbeddingsRequestWithExtraBody,
    OpenAIEmbeddingsResponse,
 )
-from openai import AsyncOpenAI
-
-from llama_stack.core.request_headers import NeedsRequestProviderData

 from .config import PassthroughImplConfig

--- a/src/llama_stack/providers/remote/inference/runpod/config.py
+++ b/src/llama_stack/providers/remote/inference/runpod/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class RunpodProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/runpod/runpod.py
+++ b/src/llama_stack/providers/remote/inference/runpod/runpod.py
@ -6,14 +6,13 @@

 from collections.abc import AsyncIterator

+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIChatCompletion,
    OpenAIChatCompletionChunk,
    OpenAIChatCompletionRequestWithExtraBody,
 )

-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 from .config import RunpodImplConfig


--- a/src/llama_stack/providers/remote/inference/sambanova/config.py
+++ b/src/llama_stack/providers/remote/inference/sambanova/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class SambaNovaProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/tgi/config.py
+++ b/src/llama_stack/providers/remote/inference/tgi/config.py
@ -5,10 +5,10 @@
 # the root directory of this source tree.


-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/inference/tgi/tgi.py
+++ b/src/llama_stack/providers/remote/inference/tgi/tgi.py
@ -8,14 +8,14 @@
 from collections.abc import Iterable

 from huggingface_hub import AsyncInferenceClient, HfApi
-from llama_stack_api import (
-    OpenAIEmbeddingsRequestWithExtraBody,
-    OpenAIEmbeddingsResponse,
-)
 from pydantic import SecretStr

 from llama_stack.log import get_logger
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
+from llama_stack_api import (
+    OpenAIEmbeddingsRequestWithExtraBody,
+    OpenAIEmbeddingsResponse,
+)

 from .config import InferenceAPIImplConfig, InferenceEndpointImplConfig, TGIImplConfig

--- a/src/llama_stack/providers/remote/inference/together/config.py
+++ b/src/llama_stack/providers/remote/inference/together/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/inference/together/together.py
+++ b/src/llama_stack/providers/remote/inference/together/together.py
@ -8,18 +8,18 @@
 from collections.abc import Iterable
 from typing import Any, cast

-from llama_stack_api import (
-    Model,
-    OpenAIEmbeddingsRequestWithExtraBody,
-    OpenAIEmbeddingsResponse,
-    OpenAIEmbeddingUsage,
-)
 from together import AsyncTogether  # type: ignore[import-untyped]
 from together.constants import BASE_URL  # type: ignore[import-untyped]

 from llama_stack.core.request_headers import NeedsRequestProviderData
 from llama_stack.log import get_logger
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
+from llama_stack_api import (
+    Model,
+    OpenAIEmbeddingsRequestWithExtraBody,
+    OpenAIEmbeddingsResponse,
+    OpenAIEmbeddingUsage,
+)

 from .config import TogetherImplConfig

--- a/src/llama_stack/providers/remote/inference/vertexai/config.py
+++ b/src/llama_stack/providers/remote/inference/vertexai/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class VertexAIProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/vllm/config.py
+++ b/src/llama_stack/providers/remote/inference/vllm/config.py
@ -6,10 +6,10 @@

 from pathlib import Path

-from llama_stack_api import json_schema_type
 from pydantic import Field, SecretStr, field_validator

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/inference/vllm/vllm.py
+++ b/src/llama_stack/providers/remote/inference/vllm/vllm.py
@ -7,6 +7,10 @@ from collections.abc import AsyncIterator
 from urllib.parse import urljoin

 import httpx
+from pydantic import ConfigDict
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    HealthResponse,
    HealthStatus,
@ -15,10 +19,6 @@ from llama_stack_api import (
    OpenAIChatCompletionRequestWithExtraBody,
    ToolChoice,
 )
-from pydantic import ConfigDict
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin

 from .config import VLLMInferenceAdapterConfig

--- a/src/llama_stack/providers/remote/inference/watsonx/config.py
+++ b/src/llama_stack/providers/remote/inference/watsonx/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class WatsonXProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/watsonx/watsonx.py
+++ b/src/llama_stack/providers/remote/inference/watsonx/watsonx.py
@ -9,6 +9,12 @@ from typing import Any

 import litellm
 import requests
+
+from llama_stack.core.telemetry.tracing import get_current_span
+from llama_stack.log import get_logger
+from llama_stack.providers.remote.inference.watsonx.config import WatsonXConfig
+from llama_stack.providers.utils.inference.litellm_openai_mixin import LiteLLMOpenAIMixin
+from llama_stack.providers.utils.inference.openai_compat import prepare_openai_completion_params
 from llama_stack_api import (
    Model,
    ModelType,
@ -22,12 +28,6 @@ from llama_stack_api import (
    OpenAIEmbeddingsResponse,
 )

-from llama_stack.core.telemetry.tracing import get_current_span
-from llama_stack.log import get_logger
-from llama_stack.providers.remote.inference.watsonx.config import WatsonXConfig
-from llama_stack.providers.utils.inference.litellm_openai_mixin import LiteLLMOpenAIMixin
-from llama_stack.providers.utils.inference.openai_compat import prepare_openai_completion_params
-
 logger = get_logger(name=__name__, category="providers::remote::watsonx")


@ -238,9 +238,8 @@ class WatsonXInferenceAdapter(LiteLLMOpenAIMixin):
        )

        # Convert response to OpenAI format
-        from llama_stack_api import OpenAIEmbeddingUsage
-
        from llama_stack.providers.utils.inference.litellm_openai_mixin import b64_encode_openai_embeddings_response
+        from llama_stack_api import OpenAIEmbeddingUsage

        data = b64_encode_openai_embeddings_response(response.data, params.encoding_format)

--- a/src/llama_stack/providers/remote/post_training/nvidia/post_training.py
+++ b/src/llama_stack/providers/remote/post_training/nvidia/post_training.py
@ -8,6 +8,11 @@ from datetime import datetime
 from typing import Any, Literal

 import aiohttp
+from pydantic import BaseModel, ConfigDict
+
+from llama_stack.providers.remote.post_training.nvidia.config import NvidiaPostTrainingConfig
+from llama_stack.providers.remote.post_training.nvidia.utils import warn_unsupported_params
+from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper
 from llama_stack_api import (
    AlgorithmConfig,
    DPOAlignmentConfig,
@ -17,11 +22,6 @@ from llama_stack_api import (
    PostTrainingJobStatusResponse,
    TrainingConfig,
 )
-from pydantic import BaseModel, ConfigDict
-
-from llama_stack.providers.remote.post_training.nvidia.config import NvidiaPostTrainingConfig
-from llama_stack.providers.remote.post_training.nvidia.utils import warn_unsupported_params
-from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper

 from .models import _MODEL_ENTRIES

--- a/src/llama_stack/providers/remote/post_training/nvidia/utils.py
+++ b/src/llama_stack/providers/remote/post_training/nvidia/utils.py
@ -7,11 +7,11 @@
 import warnings
 from typing import Any

-from llama_stack_api import TrainingConfig
 from pydantic import BaseModel

 from llama_stack.log import get_logger
 from llama_stack.providers.remote.post_training.nvidia.config import SFTLoRADefaultConfig
+from llama_stack_api import TrainingConfig

 from .config import NvidiaPostTrainingConfig

--- a/src/llama_stack/providers/remote/safety/bedrock/bedrock.py
+++ b/src/llama_stack/providers/remote/safety/bedrock/bedrock.py
@ -7,6 +7,8 @@
 import json
 from typing import Any

+from llama_stack.log import get_logger
+from llama_stack.providers.utils.bedrock.client import create_bedrock_client
 from llama_stack_api import (
    OpenAIMessageParam,
    RunShieldResponse,
@ -17,9 +19,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.bedrock.client import create_bedrock_client
-
 from .config import BedrockSafetyConfig

 logger = get_logger(name=__name__, category="safety::bedrock")
--- a/src/llama_stack/providers/remote/safety/bedrock/config.py
+++ b/src/llama_stack/providers/remote/safety/bedrock/config.py
@ -5,9 +5,8 @@
 # the root directory of this source tree.


-from llama_stack_api import json_schema_type
-
 from llama_stack.providers.utils.bedrock.config import BedrockBaseConfig
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/remote/safety/nvidia/config.py
+++ b/src/llama_stack/providers/remote/safety/nvidia/config.py
@ -6,9 +6,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

+from llama_stack_api import json_schema_type
+

@json_schema_type
 class NVIDIASafetyConfig(BaseModel):
--- a/src/llama_stack/providers/remote/safety/nvidia/nvidia.py
+++ b/src/llama_stack/providers/remote/safety/nvidia/nvidia.py
@ -7,6 +7,8 @@
 from typing import Any

 import requests
+
+from llama_stack.log import get_logger
 from llama_stack_api import (
    ModerationObject,
    OpenAIMessageParam,
@ -18,8 +20,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.log import get_logger
-
 from .config import NVIDIASafetyConfig

 logger = get_logger(name=__name__, category="safety::nvidia")
--- a/src/llama_stack/providers/remote/safety/sambanova/config.py
+++ b/src/llama_stack/providers/remote/safety/sambanova/config.py
@ -6,9 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, SecretStr

+from llama_stack_api import json_schema_type
+

 class SambaNovaProviderDataValidator(BaseModel):
    sambanova_api_key: str | None = Field(
--- a/src/llama_stack/providers/remote/safety/sambanova/sambanova.py
+++ b/src/llama_stack/providers/remote/safety/sambanova/sambanova.py
@ -8,6 +8,9 @@ from typing import Any

 import litellm
 import requests
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
+from llama_stack.log import get_logger
 from llama_stack_api import (
    OpenAIMessageParam,
    RunShieldResponse,
@ -18,9 +21,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-from llama_stack.log import get_logger
-
 from .config import SambaNovaSafetyConfig

 logger = get_logger(name=__name__, category="safety::sambanova")
--- a/src/llama_stack/providers/remote/tool_runtime/bing_search/bing_search.py
+++ b/src/llama_stack/providers/remote/tool_runtime/bing_search/bing_search.py
@ -8,6 +8,8 @@ import json
 from typing import Any

 import httpx
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
@ -18,8 +20,6 @@ from llama_stack_api import (
    ToolRuntime,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-
 from .config import BingSearchToolConfig


--- a/src/llama_stack/providers/remote/tool_runtime/brave_search/brave_search.py
+++ b/src/llama_stack/providers/remote/tool_runtime/brave_search/brave_search.py
@ -7,6 +7,9 @@
 from typing import Any

 import httpx
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
+from llama_stack.models.llama.datatypes import BuiltinTool
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
@ -17,9 +20,6 @@ from llama_stack_api import (
    ToolRuntime,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-from llama_stack.models.llama.datatypes import BuiltinTool
-
 from .config import BraveSearchToolConfig


--- a/src/llama_stack/providers/remote/tool_runtime/model_context_protocol/model_context_protocol.py
+++ b/src/llama_stack/providers/remote/tool_runtime/model_context_protocol/model_context_protocol.py
@ -7,6 +7,9 @@
 from typing import Any
 from urllib.parse import urlparse

+from llama_stack.core.request_headers import NeedsRequestProviderData
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.tools.mcp import invoke_mcp_tool, list_mcp_tools
 from llama_stack_api import (
    URL,
    Api,
@ -17,10 +20,6 @@ from llama_stack_api import (
    ToolRuntime,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.tools.mcp import invoke_mcp_tool, list_mcp_tools
-
 from .config import MCPProviderConfig

 logger = get_logger(__name__, category="tools")
--- a/src/llama_stack/providers/remote/tool_runtime/tavily_search/tavily_search.py
+++ b/src/llama_stack/providers/remote/tool_runtime/tavily_search/tavily_search.py
@ -8,6 +8,8 @@ import json
 from typing import Any

 import httpx
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
@ -18,8 +20,6 @@ from llama_stack_api import (
    ToolRuntime,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-
 from .config import TavilySearchToolConfig


--- a/src/llama_stack/providers/remote/tool_runtime/wolfram_alpha/wolfram_alpha.py
+++ b/src/llama_stack/providers/remote/tool_runtime/wolfram_alpha/wolfram_alpha.py
@ -8,6 +8,8 @@ import json
 from typing import Any

 import httpx
+
+from llama_stack.core.request_headers import NeedsRequestProviderData
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
@ -18,8 +20,6 @@ from llama_stack_api import (
    ToolRuntime,
 )

-from llama_stack.core.request_headers import NeedsRequestProviderData
-
 from .config import WolframAlphaToolConfig


--- a/src/llama_stack/providers/remote/vector_io/chroma/chroma.py
+++ b/src/llama_stack/providers/remote/vector_io/chroma/chroma.py
@ -9,6 +9,14 @@ from typing import Any
 from urllib.parse import urlparse

 import chromadb
+from numpy.typing import NDArray
+
+from llama_stack.log import get_logger
+from llama_stack.providers.inline.vector_io.chroma import ChromaVectorIOConfig as InlineChromaVectorIOConfig
+from llama_stack.providers.utils.kvstore import kvstore_impl
+from llama_stack.providers.utils.kvstore.api import KVStore
+from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
+from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex
 from llama_stack_api import (
    Chunk,
    Files,
@ -19,14 +27,6 @@ from llama_stack_api import (
    VectorStore,
    VectorStoresProtocolPrivate,
 )
-from numpy.typing import NDArray
-
-from llama_stack.log import get_logger
-from llama_stack.providers.inline.vector_io.chroma import ChromaVectorIOConfig as InlineChromaVectorIOConfig
-from llama_stack.providers.utils.kvstore import kvstore_impl
-from llama_stack.providers.utils.kvstore.api import KVStore
-from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
-from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex

 from .config import ChromaVectorIOConfig as RemoteChromaVectorIOConfig

--- a/src/llama_stack/providers/remote/vector_io/chroma/config.py
+++ b/src/llama_stack/providers/remote/vector_io/chroma/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/Show more
+++ b/Show more