fix: rename llama_stack_api dir

the directory structure was src/llama-stack-api/llama_stack_api instead it should just be src/llama_stack_api to match the other packages. update the structure and pyproject/linting config Signed-off-by: Charlie Doern <cdoern@redhat.com>
2025-12-03 18:00:36 +00:00 · 2025-11-13 15:40:59 -05:00 · 2025-11-13 15:40:59 -05:00 · e1043c3bc8
commit e1043c3bc8
parent 2441ca9389
274 changed files with 681 additions and 738 deletions
--- a/.github/workflows/python-build-test.yml
+++ b/.github/workflows/python-build-test.yml
@ -31,7 +31,7 @@ jobs:
        version: 0.7.6

    - name: Build Llama Stack API package
-      working-directory: src/llama-stack-api
+      working-directory: src/llama_stack_api
      run: uv build

    - name: Build Llama Stack package
@ -39,7 +39,7 @@ jobs:

    - name: Install Llama Stack package (with api stubs from local build)
      run: |
-        uv pip install --find-links src/llama-stack-api/dist dist/*.whl
+        uv pip install --find-links src/llama_stack_api/dist dist/*.whl

    - name: Verify Llama Stack package
      run: |
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@ -42,7 +42,7 @@ repos:
    hooks:
    -   id: ruff
        args: [ --fix ]
-        exclude: ^(src/llama_stack/strong_typing/.*|src/llama-stack-api/llama_stack_api/strong_typing/.*)$
+        exclude: ^(src/llama_stack/strong_typing/.*|src/llama_stack_api/strong_typing/.*)$
    -   id: ruff-format

 -   repo: https://github.com/adamchainz/blacken-docs
--- a/pyproject.toml
+++ b/pyproject.toml
@ -181,7 +181,7 @@ install-wheel-from-presigned = "llama_stack.cli.scripts.run:install_wheel_from_p

 [tool.setuptools.packages.find]
 where = ["src"]
-include = ["llama_stack", "llama_stack.*", "llama-stack-api", "llama-stack-api.*"]
+include = ["llama_stack", "llama_stack.*", "llama_stack_api", "llama_stack_api.*"]

 [[tool.uv.index]]
 name = "pytorch-cpu"
@ -191,7 +191,7 @@ explicit = true
 [tool.uv.sources]
 torch = [{ index = "pytorch-cpu" }]
 torchvision = [{ index = "pytorch-cpu" }]
-llama-stack-api = [{ path = "src/llama-stack-api", editable = true }]
+llama-stack-api = [{ path = "src/llama_stack_api", editable = true }]

 [tool.ruff]
 line-length = 120
@ -258,7 +258,7 @@ unfixable = [
 ] # Using import * is acceptable (or at least tolerated) in an __init__.py of a package API

 [tool.mypy]
-mypy_path = ["src", "src/llama-stack-api"]
+mypy_path = ["src"]
 packages = ["llama_stack", "llama_stack_api"]
 plugins = ['pydantic.mypy']
 disable_error_code = []
@ -281,14 +281,12 @@ exclude = [
    "^src/llama_stack/core/store/registry\\.py$",
    "^src/llama_stack/core/utils/exec\\.py$",
    "^src/llama_stack/core/utils/prompt_for_config\\.py$",
-    # Moved to llama-stack-api but still excluded
    "^src/llama_stack/models/llama/llama3/interface\\.py$",
    "^src/llama_stack/models/llama/llama3/tokenizer\\.py$",
    "^src/llama_stack/models/llama/llama3/tool_utils\\.py$",
    "^src/llama_stack/models/llama/llama3/generation\\.py$",
    "^src/llama_stack/models/llama/llama3/multimodal/model\\.py$",
    "^src/llama_stack/models/llama/llama4/",
-    "^src/llama-stack-api/llama_stack_api/core/telemetry/telemetry\\.py$",
    "^src/llama_stack/providers/inline/agents/meta_reference/",
    "^src/llama_stack/providers/inline/datasetio/localfs/",
    "^src/llama_stack/providers/inline/eval/meta_reference/eval\\.py$",
@ -342,9 +340,7 @@ exclude = [
    "^src/llama_stack/providers/utils/telemetry/dataset_mixin\\.py$",
    "^src/llama_stack/providers/utils/telemetry/trace_protocol\\.py$",
    "^src/llama_stack/providers/utils/telemetry/tracing\\.py$",
-    "^src/llama-stack-api/llama_stack_api/core/telemetry/trace_protocol\\.py$",
-    "^src/llama-stack-api/llama_stack_api/core/telemetry/tracing\\.py$",
-    "^src/llama-stack-api/llama_stack_api/strong_typing/auxiliary\\.py$",
+    "^src/llama_stack_api/strong_typing/auxiliary\\.py$",
    "^src/llama_stack/distributions/template\\.py$",
 ]

--- a/scripts/generate_prompt_format.py
+++ b/scripts/generate_prompt_format.py
@ -14,11 +14,11 @@ import os
 from pathlib import Path

 import fire
-from llama_stack_api import ModelNotFoundError

 from llama_stack.models.llama.llama3.generation import Llama3
 from llama_stack.models.llama.llama4.generation import Llama4
 from llama_stack.models.llama.sku_list import resolve_model
+from llama_stack_api import ModelNotFoundError

 THIS_DIR = Path(__file__).parent.resolve()

--- a/src/llama_stack/cli/stack/_list_deps.py
+++ b/src/llama_stack/cli/stack/_list_deps.py
@ -9,7 +9,6 @@ import sys
 from pathlib import Path

 import yaml
-from llama_stack_api import Api
 from termcolor import cprint

 from llama_stack.cli.stack.utils import ImageType
@ -22,6 +21,7 @@ from llama_stack.core.datatypes import (
 from llama_stack.core.distribution import get_provider_registry
 from llama_stack.core.stack import replace_env_vars
 from llama_stack.log import get_logger
+from llama_stack_api import Api

 TEMPLATES_PATH = Path(__file__).parent.parent.parent / "templates"

--- a/src/llama_stack/cli/stack/utils.py
+++ b/src/llama_stack/cli/stack/utils.py
@ -11,7 +11,6 @@ from functools import lru_cache
 from pathlib import Path

 import yaml
-from llama_stack_api import Api
 from termcolor import cprint

 from llama_stack.core.datatypes import (
@ -33,6 +32,7 @@ from llama_stack.core.storage.datatypes import (
 from llama_stack.core.utils.config_dirs import DISTRIBS_BASE_DIR, EXTERNAL_PROVIDERS_DIR
 from llama_stack.core.utils.dynamic import instantiate_class_type
 from llama_stack.core.utils.image_types import LlamaStackImageType
+from llama_stack_api import Api

 TEMPLATES_PATH = Path(__file__).parent.parent.parent / "distributions"

--- a/src/llama_stack/core/build.py
+++ b/src/llama_stack/core/build.py
@ -6,7 +6,6 @@

 import sys

-from llama_stack_api import Api
 from pydantic import BaseModel
 from termcolor import cprint

@ -14,6 +13,7 @@ from llama_stack.core.datatypes import BuildConfig
 from llama_stack.core.distribution import get_provider_registry
 from llama_stack.distributions.template import DistributionTemplate
 from llama_stack.log import get_logger
+from llama_stack_api import Api

 log = get_logger(name=__name__, category="core")

--- a/src/llama_stack/core/client.py
+++ b/src/llama_stack/core/client.py
@ -12,10 +12,11 @@ from enum import Enum
 from typing import Any, Union, get_args, get_origin

 import httpx
-from llama_stack_api import RemoteProviderConfig
 from pydantic import BaseModel, parse_obj_as
 from termcolor import cprint

+from llama_stack_api import RemoteProviderConfig
+
 _CLIENT_CLASSES = {}


--- a/src/llama_stack/core/configure.py
+++ b/src/llama_stack/core/configure.py
@ -6,8 +6,6 @@
 import textwrap
 from typing import Any

-from llama_stack_api import Api, ProviderSpec
-
 from llama_stack.core.datatypes import (
    LLAMA_STACK_RUN_CONFIG_VERSION,
    DistributionSpec,
@ -22,6 +20,7 @@ from llama_stack.core.stack import cast_image_name_to_string, replace_env_vars
 from llama_stack.core.utils.dynamic import instantiate_class_type
 from llama_stack.core.utils.prompt_for_config import prompt_for_config
 from llama_stack.log import get_logger
+from llama_stack_api import Api, ProviderSpec

 logger = get_logger(name=__name__, category="core")

--- a/src/llama_stack/core/conversations/conversations.py
+++ b/src/llama_stack/core/conversations/conversations.py
@ -8,6 +8,13 @@ import secrets
 import time
 from typing import Any, Literal

+from pydantic import BaseModel, TypeAdapter
+
+from llama_stack.core.datatypes import AccessRule, StackRunConfig
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    Conversation,
    ConversationDeletedResource,
@ -18,13 +25,6 @@ from llama_stack_api import (
    Conversations,
    Metadata,
 )
-from pydantic import BaseModel, TypeAdapter
-
-from llama_stack.core.datatypes import AccessRule, StackRunConfig
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl

 logger = get_logger(name=__name__, category="openai_conversations")

--- a/src/llama_stack/core/datatypes.py
+++ b/src/llama_stack/core/datatypes.py
@ -9,6 +9,15 @@ from pathlib import Path
 from typing import Annotated, Any, Literal, Self
 from urllib.parse import urlparse

+from pydantic import BaseModel, Field, field_validator, model_validator
+
+from llama_stack.core.access_control.datatypes import AccessRule
+from llama_stack.core.storage.datatypes import (
+    KVStoreReference,
+    StorageBackendType,
+    StorageConfig,
+)
+from llama_stack.log import LoggingConfig
 from llama_stack_api import (
    Api,
    Benchmark,
@ -35,15 +44,6 @@ from llama_stack_api import (
    VectorStore,
    VectorStoreInput,
 )
-from pydantic import BaseModel, Field, field_validator, model_validator
-
-from llama_stack.core.access_control.datatypes import AccessRule
-from llama_stack.core.storage.datatypes import (
-    KVStoreReference,
-    StorageBackendType,
-    StorageConfig,
-)
-from llama_stack.log import LoggingConfig

 LLAMA_STACK_BUILD_CONFIG_VERSION = 2
 LLAMA_STACK_RUN_CONFIG_VERSION = 2
--- a/src/llama_stack/core/distribution.py
+++ b/src/llama_stack/core/distribution.py
@ -10,17 +10,17 @@ import os
 from typing import Any

 import yaml
+from pydantic import BaseModel
+
+from llama_stack.core.datatypes import BuildConfig, DistributionSpec
+from llama_stack.core.external import load_external_apis
+from llama_stack.log import get_logger
 from llama_stack_api import (
    Api,
    InlineProviderSpec,
    ProviderSpec,
    RemoteProviderSpec,
 )
-from pydantic import BaseModel
-
-from llama_stack.core.datatypes import BuildConfig, DistributionSpec
-from llama_stack.core.external import load_external_apis
-from llama_stack.log import get_logger

 logger = get_logger(name=__name__, category="core")

--- a/src/llama_stack/core/external.py
+++ b/src/llama_stack/core/external.py
@ -6,10 +6,10 @@


 import yaml
-from llama_stack_api import Api, ExternalApiSpec

 from llama_stack.core.datatypes import BuildConfig, StackRunConfig
 from llama_stack.log import get_logger
+from llama_stack_api import Api, ExternalApiSpec

 logger = get_logger(name=__name__, category="core")

--- a/src/llama_stack/core/inspect.py
+++ b/src/llama_stack/core/inspect.py
@ -6,6 +6,11 @@

 from importlib.metadata import version

+from pydantic import BaseModel
+
+from llama_stack.core.datatypes import StackRunConfig
+from llama_stack.core.external import load_external_apis
+from llama_stack.core.server.routes import get_all_api_routes
 from llama_stack_api import (
    HealthInfo,
    HealthStatus,
@ -14,11 +19,6 @@ from llama_stack_api import (
    RouteInfo,
    VersionInfo,
 )
-from pydantic import BaseModel
-
-from llama_stack.core.datatypes import StackRunConfig
-from llama_stack.core.external import load_external_apis
-from llama_stack.core.server.routes import get_all_api_routes


 class DistributionInspectConfig(BaseModel):
--- a/src/llama_stack/core/library_client.py
+++ b/src/llama_stack/core/library_client.py
@ -18,6 +18,7 @@ from typing import Any, TypeVar, Union, get_args, get_origin
 import httpx
 import yaml
 from fastapi import Response as FastAPIResponse
+
 from llama_stack_api import is_unwrapped_body_param

 try:
--- a/src/llama_stack/core/prompts/prompts.py
+++ b/src/llama_stack/core/prompts/prompts.py
@ -7,11 +7,11 @@
 import json
 from typing import Any

-from llama_stack_api import ListPromptsResponse, Prompt, Prompts
 from pydantic import BaseModel

 from llama_stack.core.datatypes import StackRunConfig
 from llama_stack.providers.utils.kvstore import KVStore, kvstore_impl
+from llama_stack_api import ListPromptsResponse, Prompt, Prompts


 class PromptServiceConfig(BaseModel):
--- a/src/llama_stack/core/providers.py
+++ b/src/llama_stack/core/providers.py
@ -7,10 +7,10 @@
 import asyncio
 from typing import Any

-from llama_stack_api import HealthResponse, HealthStatus, ListProvidersResponse, ProviderInfo, Providers
 from pydantic import BaseModel

 from llama_stack.log import get_logger
+from llama_stack_api import HealthResponse, HealthStatus, ListProvidersResponse, ProviderInfo, Providers

 from .datatypes import StackRunConfig
 from .utils.config import redact_sensitive_fields
--- a/src/llama_stack/core/resolver.py
+++ b/src/llama_stack/core/resolver.py
@ -8,6 +8,19 @@ import importlib.metadata
 import inspect
 from typing import Any

+from llama_stack.core.client import get_client_impl
+from llama_stack.core.datatypes import (
+    AccessRule,
+    AutoRoutedProviderSpec,
+    Provider,
+    RoutingTableProviderSpec,
+    StackRunConfig,
+)
+from llama_stack.core.distribution import builtin_automatically_routed_apis
+from llama_stack.core.external import load_external_apis
+from llama_stack.core.store import DistributionRegistry
+from llama_stack.core.utils.dynamic import instantiate_class_type
+from llama_stack.log import get_logger
 from llama_stack_api import (
    LLAMA_STACK_API_V1ALPHA,
    Agents,
@ -48,20 +61,6 @@ from llama_stack_api import (
    Providers as ProvidersAPI,
 )

-from llama_stack.core.client import get_client_impl
-from llama_stack.core.datatypes import (
-    AccessRule,
-    AutoRoutedProviderSpec,
-    Provider,
-    RoutingTableProviderSpec,
-    StackRunConfig,
-)
-from llama_stack.core.distribution import builtin_automatically_routed_apis
-from llama_stack.core.external import load_external_apis
-from llama_stack.core.store import DistributionRegistry
-from llama_stack.core.utils.dynamic import instantiate_class_type
-from llama_stack.log import get_logger
-
 logger = get_logger(name=__name__, category="core")


--- a/src/llama_stack/core/routers/init.py
+++ b/src/llama_stack/core/routers/init.py
@ -6,8 +6,6 @@

 from typing import Any

-from llama_stack_api import Api, RoutingTable
-
 from llama_stack.core.datatypes import (
    AccessRule,
    RoutedProtocol,
@ -15,6 +13,7 @@ from llama_stack.core.datatypes import (
 from llama_stack.core.stack import StackRunConfig
 from llama_stack.core.store import DistributionRegistry
 from llama_stack.providers.utils.inference.inference_store import InferenceStore
+from llama_stack_api import Api, RoutingTable


 async def get_routing_table_impl(
--- a/src/llama_stack/core/routers/datasets.py
+++ b/src/llama_stack/core/routers/datasets.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import DatasetIO, DatasetPurpose, DataSource, PaginatedResponse, RoutingTable
-
 from llama_stack.log import get_logger
+from llama_stack_api import DatasetIO, DatasetPurpose, DataSource, PaginatedResponse, RoutingTable

 logger = get_logger(name=__name__, category="core::routers")

--- a/src/llama_stack/core/routers/eval_scoring.py
+++ b/src/llama_stack/core/routers/eval_scoring.py
@ -6,6 +6,7 @@

 from typing import Any

+from llama_stack.log import get_logger
 from llama_stack_api import (
    BenchmarkConfig,
    Eval,
@ -18,8 +19,6 @@ from llama_stack_api import (
    ScoringFnParams,
 )

-from llama_stack.log import get_logger
-
 logger = get_logger(name=__name__, category="core::routers")


--- a/src/llama_stack/core/routers/inference.py
+++ b/src/llama_stack/core/routers/inference.py
@ -11,6 +11,16 @@ from datetime import UTC, datetime
 from typing import Annotated, Any

 from fastapi import Body
+from openai.types.chat import ChatCompletionToolChoiceOptionParam as OpenAIChatCompletionToolChoiceOptionParam
+from openai.types.chat import ChatCompletionToolParam as OpenAIChatCompletionToolParam
+from pydantic import TypeAdapter
+
+from llama_stack.core.telemetry.telemetry import MetricEvent
+from llama_stack.core.telemetry.tracing import enqueue_event, get_current_span
+from llama_stack.log import get_logger
+from llama_stack.models.llama.llama3.chat_format import ChatFormat
+from llama_stack.models.llama.llama3.tokenizer import Tokenizer
+from llama_stack.providers.utils.inference.inference_store import InferenceStore
 from llama_stack_api import (
    HealthResponse,
    HealthStatus,
@ -39,16 +49,6 @@ from llama_stack_api import (
    RerankResponse,
    RoutingTable,
 )
-from openai.types.chat import ChatCompletionToolChoiceOptionParam as OpenAIChatCompletionToolChoiceOptionParam
-from openai.types.chat import ChatCompletionToolParam as OpenAIChatCompletionToolParam
-from pydantic import TypeAdapter
-
-from llama_stack.core.telemetry.telemetry import MetricEvent
-from llama_stack.core.telemetry.tracing import enqueue_event, get_current_span
-from llama_stack.log import get_logger
-from llama_stack.models.llama.llama3.chat_format import ChatFormat
-from llama_stack.models.llama.llama3.tokenizer import Tokenizer
-from llama_stack.providers.utils.inference.inference_store import InferenceStore

 logger = get_logger(name=__name__, category="core::routers")

--- a/src/llama_stack/core/routers/safety.py
+++ b/src/llama_stack/core/routers/safety.py
@ -6,10 +6,9 @@

 from typing import Any

-from llama_stack_api import ModerationObject, OpenAIMessageParam, RoutingTable, RunShieldResponse, Safety, Shield
-
 from llama_stack.core.datatypes import SafetyConfig
 from llama_stack.log import get_logger
+from llama_stack_api import ModerationObject, OpenAIMessageParam, RoutingTable, RunShieldResponse, Safety, Shield

 logger = get_logger(name=__name__, category="core::routers")

--- a/src/llama_stack/core/routers/tool_runtime.py
+++ b/src/llama_stack/core/routers/tool_runtime.py
@ -6,14 +6,13 @@

 from typing import Any

+from llama_stack.log import get_logger
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
    ToolRuntime,
 )

-from llama_stack.log import get_logger
-
 from ..routing_tables.toolgroups import ToolGroupsRoutingTable

 logger = get_logger(name=__name__, category="core::routers")
--- a/src/llama_stack/core/routers/vector_io.py
+++ b/src/llama_stack/core/routers/vector_io.py
@ -9,6 +9,9 @@ import uuid
 from typing import Annotated, Any

 from fastapi import Body
+
+from llama_stack.core.datatypes import VectorStoresConfig
+from llama_stack.log import get_logger
 from llama_stack_api import (
    Chunk,
    HealthResponse,
@ -36,9 +39,6 @@ from llama_stack_api import (
    VectorStoreSearchResponsePage,
 )

-from llama_stack.core.datatypes import VectorStoresConfig
-from llama_stack.log import get_logger
-
 logger = get_logger(name=__name__, category="core::routers")


--- a/src/llama_stack/core/routing_tables/benchmarks.py
+++ b/src/llama_stack/core/routing_tables/benchmarks.py
@ -6,12 +6,11 @@

 from typing import Any

-from llama_stack_api import Benchmark, Benchmarks, ListBenchmarksResponse
-
 from llama_stack.core.datatypes import (
    BenchmarkWithOwner,
 )
 from llama_stack.log import get_logger
+from llama_stack_api import Benchmark, Benchmarks, ListBenchmarksResponse

 from .common import CommonRoutingTableImpl

--- a/src/llama_stack/core/routing_tables/common.py
+++ b/src/llama_stack/core/routing_tables/common.py
@ -6,8 +6,6 @@

 from typing import Any

-from llama_stack_api import Api, Model, ModelNotFoundError, ResourceType, RoutingTable
-
 from llama_stack.core.access_control.access_control import AccessDeniedError, is_action_allowed
 from llama_stack.core.access_control.datatypes import Action
 from llama_stack.core.datatypes import (
@ -20,6 +18,7 @@ from llama_stack.core.datatypes import (
 from llama_stack.core.request_headers import get_authenticated_user
 from llama_stack.core.store import DistributionRegistry
 from llama_stack.log import get_logger
+from llama_stack_api import Api, Model, ModelNotFoundError, ResourceType, RoutingTable

 logger = get_logger(name=__name__, category="core::routing_tables")

--- a/src/llama_stack/core/routing_tables/datasets.py
+++ b/src/llama_stack/core/routing_tables/datasets.py
@ -7,6 +7,10 @@
 import uuid
 from typing import Any

+from llama_stack.core.datatypes import (
+    DatasetWithOwner,
+)
+from llama_stack.log import get_logger
 from llama_stack_api import (
    Dataset,
    DatasetNotFoundError,
@ -20,11 +24,6 @@ from llama_stack_api import (
    URIDataSource,
 )

-from llama_stack.core.datatypes import (
-    DatasetWithOwner,
-)
-from llama_stack.log import get_logger
-
 from .common import CommonRoutingTableImpl

 logger = get_logger(name=__name__, category="core::routing_tables")
--- a/src/llama_stack/core/routing_tables/models.py
+++ b/src/llama_stack/core/routing_tables/models.py
@ -7,6 +7,13 @@
 import time
 from typing import Any

+from llama_stack.core.datatypes import (
+    ModelWithOwner,
+    RegistryEntrySource,
+)
+from llama_stack.core.request_headers import PROVIDER_DATA_VAR, NeedsRequestProviderData
+from llama_stack.core.utils.dynamic import instantiate_class_type
+from llama_stack.log import get_logger
 from llama_stack_api import (
    ListModelsResponse,
    Model,
@ -17,14 +24,6 @@ from llama_stack_api import (
    OpenAIModel,
 )

-from llama_stack.core.datatypes import (
-    ModelWithOwner,
-    RegistryEntrySource,
-)
-from llama_stack.core.request_headers import PROVIDER_DATA_VAR, NeedsRequestProviderData
-from llama_stack.core.utils.dynamic import instantiate_class_type
-from llama_stack.log import get_logger
-
 from .common import CommonRoutingTableImpl, lookup_model

 logger = get_logger(name=__name__, category="core::routing_tables")
--- a/src/llama_stack/core/routing_tables/scoring_functions.py
+++ b/src/llama_stack/core/routing_tables/scoring_functions.py
@ -4,6 +4,10 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

+from llama_stack.core.datatypes import (
+    ScoringFnWithOwner,
+)
+from llama_stack.log import get_logger
 from llama_stack_api import (
    ListScoringFunctionsResponse,
    ParamType,
@ -13,11 +17,6 @@ from llama_stack_api import (
    ScoringFunctions,
 )

-from llama_stack.core.datatypes import (
-    ScoringFnWithOwner,
-)
-from llama_stack.log import get_logger
-
 from .common import CommonRoutingTableImpl

 logger = get_logger(name=__name__, category="core::routing_tables")
--- a/src/llama_stack/core/routing_tables/shields.py
+++ b/src/llama_stack/core/routing_tables/shields.py
@ -6,12 +6,11 @@

 from typing import Any

-from llama_stack_api import ListShieldsResponse, ResourceType, Shield, Shields
-
 from llama_stack.core.datatypes import (
    ShieldWithOwner,
 )
 from llama_stack.log import get_logger
+from llama_stack_api import ListShieldsResponse, ResourceType, Shield, Shields

 from .common import CommonRoutingTableImpl

--- a/src/llama_stack/core/routing_tables/toolgroups.py
+++ b/src/llama_stack/core/routing_tables/toolgroups.py
@ -6,6 +6,8 @@

 from typing import Any

+from llama_stack.core.datatypes import AuthenticationRequiredError, ToolGroupWithOwner
+from llama_stack.log import get_logger
 from llama_stack_api import (
    URL,
    ListToolDefsResponse,
@ -16,9 +18,6 @@ from llama_stack_api import (
    ToolGroups,
 )

-from llama_stack.core.datatypes import AuthenticationRequiredError, ToolGroupWithOwner
-from llama_stack.log import get_logger
-
 from .common import CommonRoutingTableImpl

 logger = get_logger(name=__name__, category="core::routing_tables")
--- a/src/llama_stack/core/routing_tables/vector_stores.py
+++ b/src/llama_stack/core/routing_tables/vector_stores.py
@ -6,6 +6,11 @@

 from typing import Any

+from llama_stack.core.datatypes import (
+    VectorStoreWithOwner,
+)
+from llama_stack.log import get_logger
+
 # Removed VectorStores import to avoid exposing public API
 from llama_stack_api import (
    ModelNotFoundError,
@ -23,11 +28,6 @@ from llama_stack_api import (
    VectorStoreSearchResponsePage,
 )

-from llama_stack.core.datatypes import (
-    VectorStoreWithOwner,
-)
-from llama_stack.log import get_logger
-
 from .common import CommonRoutingTableImpl, lookup_model

 logger = get_logger(name=__name__, category="core::routing_tables")
--- a/src/llama_stack/core/server/auth_providers.py
+++ b/src/llama_stack/core/server/auth_providers.py
@ -11,7 +11,6 @@ from urllib.parse import parse_qs, urljoin, urlparse

 import httpx
 import jwt
-from llama_stack_api import TokenValidationError
 from pydantic import BaseModel, Field

 from llama_stack.core.datatypes import (
@ -23,6 +22,7 @@ from llama_stack.core.datatypes import (
    User,
 )
 from llama_stack.log import get_logger
+from llama_stack_api import TokenValidationError

 logger = get_logger(name=__name__, category="core::auth")

--- a/src/llama_stack/core/server/routes.py
+++ b/src/llama_stack/core/server/routes.py
@ -10,10 +10,10 @@ from collections.abc import Callable
 from typing import Any

 from aiohttp import hdrs
-from llama_stack_api import Api, ExternalApiSpec, WebMethod
 from starlette.routing import Route

 from llama_stack.core.resolver import api_protocol_map
+from llama_stack_api import Api, ExternalApiSpec, WebMethod

 EndpointFunc = Callable[..., Any]
 PathParams = dict[str, str]
--- a/src/llama_stack/core/server/server.py
+++ b/src/llama_stack/core/server/server.py
@ -28,7 +28,6 @@ from fastapi import Path as FastapiPath
 from fastapi.exceptions import RequestValidationError
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse, StreamingResponse
-from llama_stack_api import Api, ConflictError, PaginatedResponse, ResourceNotFoundError
 from openai import BadRequestError
 from pydantic import BaseModel, ValidationError

@ -57,6 +56,7 @@ from llama_stack.core.utils.config import redact_sensitive_fields
 from llama_stack.core.utils.config_resolution import Mode, resolve_config_or_distro
 from llama_stack.core.utils.context import preserve_contexts_async_generator
 from llama_stack.log import LoggingConfig, get_logger, setup_logging
+from llama_stack_api import Api, ConflictError, PaginatedResponse, ResourceNotFoundError

 from .auth import AuthenticationMiddleware
 from .quota import QuotaMiddleware
--- a/src/llama_stack/core/stack.py
+++ b/src/llama_stack/core/stack.py
@ -12,6 +12,28 @@ import tempfile
 from typing import Any

 import yaml
+
+from llama_stack.core.conversations.conversations import ConversationServiceConfig, ConversationServiceImpl
+from llama_stack.core.datatypes import Provider, SafetyConfig, StackRunConfig, VectorStoresConfig
+from llama_stack.core.distribution import get_provider_registry
+from llama_stack.core.inspect import DistributionInspectConfig, DistributionInspectImpl
+from llama_stack.core.prompts.prompts import PromptServiceConfig, PromptServiceImpl
+from llama_stack.core.providers import ProviderImpl, ProviderImplConfig
+from llama_stack.core.resolver import ProviderRegistry, resolve_impls
+from llama_stack.core.routing_tables.common import CommonRoutingTableImpl
+from llama_stack.core.storage.datatypes import (
+    InferenceStoreReference,
+    KVStoreReference,
+    ServerStoresConfig,
+    SqliteKVStoreConfig,
+    SqliteSqlStoreConfig,
+    SqlStoreReference,
+    StorageBackendConfig,
+    StorageConfig,
+)
+from llama_stack.core.store.registry import create_dist_registry
+from llama_stack.core.utils.dynamic import instantiate_class_type
+from llama_stack.log import get_logger
 from llama_stack_api import (
    Agents,
    Api,
@ -37,28 +59,6 @@ from llama_stack_api import (
    VectorIO,
 )

-from llama_stack.core.conversations.conversations import ConversationServiceConfig, ConversationServiceImpl
-from llama_stack.core.datatypes import Provider, SafetyConfig, StackRunConfig, VectorStoresConfig
-from llama_stack.core.distribution import get_provider_registry
-from llama_stack.core.inspect import DistributionInspectConfig, DistributionInspectImpl
-from llama_stack.core.prompts.prompts import PromptServiceConfig, PromptServiceImpl
-from llama_stack.core.providers import ProviderImpl, ProviderImplConfig
-from llama_stack.core.resolver import ProviderRegistry, resolve_impls
-from llama_stack.core.routing_tables.common import CommonRoutingTableImpl
-from llama_stack.core.storage.datatypes import (
-    InferenceStoreReference,
-    KVStoreReference,
-    ServerStoresConfig,
-    SqliteKVStoreConfig,
-    SqliteSqlStoreConfig,
-    SqlStoreReference,
-    StorageBackendConfig,
-    StorageConfig,
-)
-from llama_stack.core.store.registry import create_dist_registry
-from llama_stack.core.utils.dynamic import instantiate_class_type
-from llama_stack.log import get_logger
-
 logger = get_logger(name=__name__, category="core")


--- a/src/llama_stack/core/telemetry/telemetry.py
+++ b/src/llama_stack/core/telemetry/telemetry.py
@ -16,7 +16,6 @@ from typing import (
    cast,
 )

-from llama_stack_api import json_schema_type, register_schema
 from opentelemetry import metrics, trace
 from opentelemetry.exporter.otlp.proto.http.metric_exporter import OTLPMetricExporter
 from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter
@ -29,6 +28,7 @@ from pydantic import BaseModel, Field

 from llama_stack.log import get_logger
 from llama_stack.models.llama.datatypes import Primitive
+from llama_stack_api import json_schema_type, register_schema

 ROOT_SPAN_MARKERS = ["__root__", "__root_span__"]

--- a/src/llama_stack/distributions/dell/dell.py
+++ b/src/llama_stack/distributions/dell/dell.py
@ -4,8 +4,6 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack_api import ModelType
-
 from llama_stack.core.datatypes import (
    BuildProvider,
    ModelInput,
@ -18,6 +16,7 @@ from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
 from llama_stack.providers.remote.vector_io.chroma import ChromaVectorIOConfig
+from llama_stack_api import ModelType


 def get_distribution_template() -> DistributionTemplate:
--- a/src/llama_stack/distributions/meta-reference-gpu/meta_reference.py
+++ b/src/llama_stack/distributions/meta-reference-gpu/meta_reference.py
@ -6,8 +6,6 @@

 from pathlib import Path

-from llama_stack_api import ModelType
-
 from llama_stack.core.datatypes import (
    BuildProvider,
    ModelInput,
@ -23,6 +21,7 @@ from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
 from llama_stack.providers.inline.vector_io.faiss.config import FaissVectorIOConfig
+from llama_stack_api import ModelType


 def get_distribution_template() -> DistributionTemplate:
--- a/src/llama_stack/distributions/open-benchmark/open_benchmark.py
+++ b/src/llama_stack/distributions/open-benchmark/open_benchmark.py
@ -5,8 +5,6 @@
 # the root directory of this source tree.


-from llama_stack_api import DatasetPurpose, ModelType, URIDataSource
-
 from llama_stack.core.datatypes import (
    BenchmarkInput,
    BuildProvider,
@ -34,6 +32,7 @@ from llama_stack.providers.remote.vector_io.pgvector.config import (
    PGVectorVectorIOConfig,
 )
 from llama_stack.providers.utils.inference.model_registry import ProviderModelEntry
+from llama_stack_api import DatasetPurpose, ModelType, URIDataSource


 def get_inference_providers() -> tuple[list[Provider], dict[str, list[ProviderModelEntry]]]:
--- a/src/llama_stack/distributions/starter/starter.py
+++ b/src/llama_stack/distributions/starter/starter.py
@ -7,8 +7,6 @@

 from typing import Any

-from llama_stack_api import RemoteProviderSpec
-
 from llama_stack.core.datatypes import (
    BuildProvider,
    Provider,
@ -39,6 +37,7 @@ from llama_stack.providers.remote.vector_io.qdrant.config import QdrantVectorIOC
 from llama_stack.providers.remote.vector_io.weaviate.config import WeaviateVectorIOConfig
 from llama_stack.providers.utils.kvstore.config import PostgresKVStoreConfig
 from llama_stack.providers.utils.sqlstore.sqlstore import PostgresSqlStoreConfig
+from llama_stack_api import RemoteProviderSpec


 def _get_config_for_provider(provider_spec: ProviderSpec) -> dict[str, Any]:
--- a/src/llama_stack/distributions/template.py
+++ b/src/llama_stack/distributions/template.py
@ -10,7 +10,6 @@ from typing import Any, Literal
 import jinja2
 import rich
 import yaml
-from llama_stack_api import DatasetPurpose, ModelType
 from pydantic import BaseModel, Field

 from llama_stack.core.datatypes import (
@ -43,6 +42,7 @@ from llama_stack.providers.utils.kvstore.config import SqliteKVStoreConfig
 from llama_stack.providers.utils.kvstore.config import get_pip_packages as get_kv_pip_packages
 from llama_stack.providers.utils.sqlstore.sqlstore import SqliteSqlStoreConfig
 from llama_stack.providers.utils.sqlstore.sqlstore import get_pip_packages as get_sql_pip_packages
+from llama_stack_api import DatasetPurpose, ModelType


 def filter_empty_values(obj: Any) -> Any:
--- a/src/llama_stack/providers/inline/agents/meta_reference/agents.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/agents.py
@ -5,6 +5,10 @@
 # the root directory of this source tree.


+from llama_stack.core.datatypes import AccessRule
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import InmemoryKVStoreImpl, kvstore_impl
+from llama_stack.providers.utils.responses.responses_store import ResponsesStore
 from llama_stack_api import (
    Agents,
    Conversations,
@ -25,11 +29,6 @@ from llama_stack_api import (
    VectorIO,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import InmemoryKVStoreImpl, kvstore_impl
-from llama_stack.providers.utils.responses.responses_store import ResponsesStore
-
 from .config import MetaReferenceAgentsImplConfig
 from .responses.openai_responses import OpenAIResponsesImpl

--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
@ -8,6 +8,13 @@ import time
 import uuid
 from collections.abc import AsyncIterator

+from pydantic import BaseModel, TypeAdapter
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.responses.responses_store import (
+    ResponsesStore,
+    _OpenAIResponseObjectWithInputAndMessages,
+)
 from llama_stack_api import (
    ConversationItem,
    Conversations,
@ -34,13 +41,6 @@ from llama_stack_api import (
    ToolRuntime,
    VectorIO,
 )
-from pydantic import BaseModel, TypeAdapter
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.responses.responses_store import (
-    ResponsesStore,
-    _OpenAIResponseObjectWithInputAndMessages,
-)

 from .streaming import StreamingResponseOrchestrator
 from .tool_executor import ToolExecutor
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
@ -8,6 +8,9 @@ import uuid
 from collections.abc import AsyncIterator
 from typing import Any

+from llama_stack.core.telemetry import tracing
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
 from llama_stack_api import (
    AllowedToolsFilter,
    ApprovalFilter,
@ -65,10 +68,6 @@ from llama_stack_api import (
    WebSearchToolTypes,
 )

-from llama_stack.core.telemetry import tracing
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
-
 from .types import ChatCompletionContext, ChatCompletionResult
 from .utils import (
    convert_chat_choice_to_response_message,
@ -1022,11 +1021,11 @@ class StreamingResponseOrchestrator:
        self, tools: list[OpenAIResponseInputTool], output_messages: list[OpenAIResponseOutput]
    ) -> AsyncIterator[OpenAIResponseObjectStream]:
        """Process all tools and emit appropriate streaming events."""
-        from llama_stack_api import ToolDef
        from openai.types.chat import ChatCompletionToolParam

        from llama_stack.models.llama.datatypes import ToolDefinition
        from llama_stack.providers.utils.inference.openai_compat import convert_tooldef_to_openai_tool
+        from llama_stack_api import ToolDef

        def make_openai_tool(tool_name: str, tool: ToolDef) -> ChatCompletionToolParam:
            tool_def = ToolDefinition(
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
@ -9,6 +9,8 @@ import json
 from collections.abc import AsyncIterator
 from typing import Any

+from llama_stack.core.telemetry import tracing
+from llama_stack.log import get_logger
 from llama_stack_api import (
    ImageContentItem,
    OpenAIChatCompletionContentPartImageParam,
@ -37,9 +39,6 @@ from llama_stack_api import (
    VectorIO,
 )

-from llama_stack.core.telemetry import tracing
-from llama_stack.log import get_logger
-
 from .types import ChatCompletionContext, ToolExecutionResult

 logger = get_logger(name=__name__, category="agents::meta_reference")
--- a/src/llama_stack/providers/inline/agents/meta_reference/responses/types.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/responses/types.py
@ -7,6 +7,9 @@
 from dataclasses import dataclass
 from typing import cast

+from openai.types.chat import ChatCompletionToolParam
+from pydantic import BaseModel
+
 from llama_stack_api import (
    OpenAIChatCompletionToolCall,
    OpenAIMessageParam,
@ -26,8 +29,6 @@ from llama_stack_api import (
    OpenAIResponseTool,
    OpenAIResponseToolMCP,
 )
-from openai.types.chat import ChatCompletionToolParam
-from pydantic import BaseModel


 class ToolExecutionResult(BaseModel):
--- a/src/llama_stack/providers/inline/agents/meta_reference/safety.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/safety.py
@ -6,10 +6,9 @@

 import asyncio

-from llama_stack_api import OpenAIMessageParam, Safety, SafetyViolation, ViolationLevel
-
 from llama_stack.core.telemetry import tracing
 from llama_stack.log import get_logger
+from llama_stack_api import OpenAIMessageParam, Safety, SafetyViolation, ViolationLevel

 log = get_logger(name=__name__, category="agents::meta_reference")

--- a/src/llama_stack/providers/inline/batches/reference/init.py
+++ b/src/llama_stack/providers/inline/batches/reference/init.py
@ -6,10 +6,9 @@

 from typing import Any

-from llama_stack_api import Files, Inference, Models
-
 from llama_stack.core.datatypes import AccessRule, Api
 from llama_stack.providers.utils.kvstore import kvstore_impl
+from llama_stack_api import Files, Inference, Models

 from .batches import ReferenceBatchesImpl
 from .config import ReferenceBatchesImplConfig
--- a/src/llama_stack/providers/inline/batches/reference/batches.py
+++ b/src/llama_stack/providers/inline/batches/reference/batches.py
@ -13,6 +13,11 @@ import uuid
 from io import BytesIO
 from typing import Any, Literal

+from openai.types.batch import BatchError, Errors
+from pydantic import BaseModel
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import KVStore
 from llama_stack_api import (
    Batches,
    BatchObject,
@ -33,11 +38,6 @@ from llama_stack_api import (
    OpenAIUserMessageParam,
    ResourceNotFoundError,
 )
-from openai.types.batch import BatchError, Errors
-from pydantic import BaseModel
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import KVStore

 from .config import ReferenceBatchesImplConfig

--- a/src/llama_stack/providers/inline/datasetio/localfs/datasetio.py
+++ b/src/llama_stack/providers/inline/datasetio/localfs/datasetio.py
@ -5,11 +5,10 @@
 # the root directory of this source tree.
 from typing import Any

-from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse
-
 from llama_stack.providers.utils.datasetio.url_utils import get_dataframe_from_uri
 from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack.providers.utils.pagination import paginate_records
+from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse

 from .config import LocalFSDatasetIOConfig

--- a/src/llama_stack/providers/inline/eval/meta_reference/eval.py
+++ b/src/llama_stack/providers/inline/eval/meta_reference/eval.py
@ -6,6 +6,10 @@
 import json
 from typing import Any

+from tqdm import tqdm
+
+from llama_stack.providers.utils.common.data_schema_validator import ColumnName
+from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack_api import (
    Agents,
    Benchmark,
@ -24,10 +28,6 @@ from llama_stack_api import (
    OpenAIUserMessageParam,
    Scoring,
 )
-from tqdm import tqdm
-
-from llama_stack.providers.utils.common.data_schema_validator import ColumnName
-from llama_stack.providers.utils.kvstore import kvstore_impl

 from .config import MetaReferenceEvalConfig

--- a/src/llama_stack/providers/inline/files/localfs/files.py
+++ b/src/llama_stack/providers/inline/files/localfs/files.py
@ -10,6 +10,14 @@ from pathlib import Path
 from typing import Annotated

 from fastapi import Depends, File, Form, Response, UploadFile
+
+from llama_stack.core.datatypes import AccessRule
+from llama_stack.core.id_generation import generate_object_id
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -21,14 +29,6 @@ from llama_stack_api import (
    ResourceNotFoundError,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.core.id_generation import generate_object_id
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
-
 from .config import LocalfsFilesImplConfig

 logger = get_logger(name=__name__, category="files")
--- a/src/llama_stack/providers/inline/inference/meta_reference/config.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import QuantizationConfig
 from pydantic import BaseModel, field_validator

 from llama_stack.providers.utils.inference import supported_inference_models
+from llama_stack_api import QuantizationConfig


 class MetaReferenceInferenceConfig(BaseModel):
--- a/src/llama_stack/providers/inline/inference/meta_reference/generators.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/generators.py
@ -8,6 +8,14 @@ import math
 from typing import Optional

 import torch
+from lmformatenforcer import JsonSchemaParser, TokenEnforcer, TokenEnforcerTokenizerData
+
+from llama_stack.models.llama.datatypes import QuantizationMode, ToolPromptFormat
+from llama_stack.models.llama.llama3.generation import Llama3
+from llama_stack.models.llama.llama3.tokenizer import Tokenizer as Llama3Tokenizer
+from llama_stack.models.llama.llama4.generation import Llama4
+from llama_stack.models.llama.llama4.tokenizer import Tokenizer as Llama4Tokenizer
+from llama_stack.models.llama.sku_types import Model, ModelFamily
 from llama_stack_api import (
    GreedySamplingStrategy,
    JsonSchemaResponseFormat,
@ -18,14 +26,6 @@ from llama_stack_api import (
    SamplingParams,
    TopPSamplingStrategy,
 )
-from lmformatenforcer import JsonSchemaParser, TokenEnforcer, TokenEnforcerTokenizerData
-
-from llama_stack.models.llama.datatypes import QuantizationMode, ToolPromptFormat
-from llama_stack.models.llama.llama3.generation import Llama3
-from llama_stack.models.llama.llama3.tokenizer import Tokenizer as Llama3Tokenizer
-from llama_stack.models.llama.llama4.generation import Llama4
-from llama_stack.models.llama.llama4.tokenizer import Tokenizer as Llama4Tokenizer
-from llama_stack.models.llama.sku_types import Model, ModelFamily

 from .common import model_checkpoint_dir
 from .config import MetaReferenceInferenceConfig
--- a/src/llama_stack/providers/inline/inference/meta_reference/inference.py
+++ b/src/llama_stack/providers/inline/inference/meta_reference/inference.py
@ -9,23 +9,6 @@ import time
 import uuid
 from collections.abc import AsyncIterator

-from llama_stack_api import (
-    InferenceProvider,
-    Model,
-    ModelsProtocolPrivate,
-    ModelType,
-    OpenAIAssistantMessageParam,
-    OpenAIChatCompletion,
-    OpenAIChatCompletionChunk,
-    OpenAIChatCompletionRequestWithExtraBody,
-    OpenAIChatCompletionUsage,
-    OpenAIChoice,
-    OpenAICompletion,
-    OpenAICompletionRequestWithExtraBody,
-    OpenAIUserMessageParam,
-    ToolChoice,
-)
-
 from llama_stack.log import get_logger
 from llama_stack.models.llama.datatypes import RawMessage, RawTextItem, ToolDefinition
 from llama_stack.models.llama.llama3.chat_format import ChatFormat as Llama3ChatFormat
@ -48,6 +31,22 @@ from llama_stack.providers.utils.inference.model_registry import (
    ModelRegistryHelper,
    build_hf_repo_model_entry,
 )
+from llama_stack_api import (
+    InferenceProvider,
+    Model,
+    ModelsProtocolPrivate,
+    ModelType,
+    OpenAIAssistantMessageParam,
+    OpenAIChatCompletion,
+    OpenAIChatCompletionChunk,
+    OpenAIChatCompletionRequestWithExtraBody,
+    OpenAIChatCompletionUsage,
+    OpenAIChoice,
+    OpenAICompletion,
+    OpenAICompletionRequestWithExtraBody,
+    OpenAIUserMessageParam,
+    ToolChoice,
+)

 from .config import MetaReferenceInferenceConfig
 from .generators import LlamaGenerator
@ -441,6 +440,8 @@ class MetaReferenceInferenceImpl(
        params: OpenAIChatCompletionRequestWithExtraBody,
    ) -> AsyncIterator[OpenAIChatCompletionChunk]:
        """Stream chat completion chunks as they're generated."""
+        from llama_stack.models.llama.datatypes import StopReason
+        from llama_stack.providers.utils.inference.prompt_adapter import decode_assistant_message
        from llama_stack_api import (
            OpenAIChatCompletionChunk,
            OpenAIChatCompletionToolCall,
@ -449,9 +450,6 @@ class MetaReferenceInferenceImpl(
            OpenAIChunkChoice,
        )

-        from llama_stack.models.llama.datatypes import StopReason
-        from llama_stack.providers.utils.inference.prompt_adapter import decode_assistant_message
-
        response_id = f"chatcmpl-{uuid.uuid4().hex[:24]}"
        created = int(time.time())
        generated_text = ""
--- a/src/llama_stack/providers/inline/inference/sentence_transformers/sentence_transformers.py
+++ b/src/llama_stack/providers/inline/inference/sentence_transformers/sentence_transformers.py
@ -6,6 +6,10 @@

 from collections.abc import AsyncIterator

+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.embedding_mixin import (
+    SentenceTransformerEmbeddingMixin,
+)
 from llama_stack_api import (
    InferenceProvider,
    Model,
@ -18,11 +22,6 @@ from llama_stack_api import (
    OpenAICompletionRequestWithExtraBody,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.embedding_mixin import (
-    SentenceTransformerEmbeddingMixin,
-)
-
 from .config import SentenceTransformersInferenceConfig

 log = get_logger(name=__name__, category="inference")
--- a/src/llama_stack/providers/inline/post_training/common/validator.py
+++ b/src/llama_stack/providers/inline/post_training/common/validator.py
@ -12,11 +12,10 @@

 from typing import Any

-from llama_stack_api import ChatCompletionInputType, DialogType, StringType
-
 from llama_stack.providers.utils.common.data_schema_validator import (
    ColumnName,
 )
+from llama_stack_api import ChatCompletionInputType, DialogType, StringType

 EXPECTED_DATASET_SCHEMA: dict[str, list[dict[str, Any]]] = {
    "instruct": [
--- a/src/llama_stack/providers/inline/post_training/huggingface/post_training.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/post_training.py
@ -6,6 +6,11 @@
 from enum import Enum
 from typing import Any

+from llama_stack.providers.inline.post_training.huggingface.config import (
+    HuggingFacePostTrainingConfig,
+)
+from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
+from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
 from llama_stack_api import (
    AlgorithmConfig,
    Checkpoint,
@ -20,12 +25,6 @@ from llama_stack_api import (
    TrainingConfig,
 )

-from llama_stack.providers.inline.post_training.huggingface.config import (
-    HuggingFacePostTrainingConfig,
-)
-from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
-from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
-

 class TrainingArtifactType(Enum):
    CHECKPOINT = "checkpoint"
--- a/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device.py
@ -12,14 +12,6 @@ from typing import Any

 import torch
 from datasets import Dataset
-from llama_stack_api import (
-    Checkpoint,
-    DataConfig,
-    DatasetIO,
-    Datasets,
-    LoraFinetuningConfig,
-    TrainingConfig,
-)
 from peft import LoraConfig
 from transformers import (
    AutoTokenizer,
@ -28,6 +20,14 @@ from trl import SFTConfig, SFTTrainer

 from llama_stack.log import get_logger
 from llama_stack.providers.inline.post_training.common.utils import evacuate_model_from_device
+from llama_stack_api import (
+    Checkpoint,
+    DataConfig,
+    DatasetIO,
+    Datasets,
+    LoraFinetuningConfig,
+    TrainingConfig,
+)

 from ..config import HuggingFacePostTrainingConfig
 from ..utils import (
--- a/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device_dpo.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/recipes/finetune_single_device_dpo.py
@ -11,13 +11,6 @@ from typing import Any

 import torch
 from datasets import Dataset
-from llama_stack_api import (
-    Checkpoint,
-    DatasetIO,
-    Datasets,
-    DPOAlignmentConfig,
-    TrainingConfig,
-)
 from transformers import (
    AutoTokenizer,
 )
@ -25,6 +18,13 @@ from trl import DPOConfig, DPOTrainer

 from llama_stack.log import get_logger
 from llama_stack.providers.inline.post_training.common.utils import evacuate_model_from_device
+from llama_stack_api import (
+    Checkpoint,
+    DatasetIO,
+    Datasets,
+    DPOAlignmentConfig,
+    TrainingConfig,
+)

 from ..config import HuggingFacePostTrainingConfig
 from ..utils import (
--- a/src/llama_stack/providers/inline/post_training/huggingface/utils.py
+++ b/src/llama_stack/providers/inline/post_training/huggingface/utils.py
@ -14,9 +14,10 @@ from typing import TYPE_CHECKING, Any, Protocol
 import psutil
 import torch
 from datasets import Dataset
-from llama_stack_api import Checkpoint, DatasetIO, TrainingConfig
 from transformers import AutoConfig, AutoModelForCausalLM

+from llama_stack_api import Checkpoint, DatasetIO, TrainingConfig
+
 if TYPE_CHECKING:
    from transformers import PretrainedConfig

--- a/src/llama_stack/providers/inline/post_training/torchtune/common/utils.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/common/utils.py
@ -13,7 +13,6 @@
 from collections.abc import Callable

 import torch
-from llama_stack_api import DatasetFormat
 from pydantic import BaseModel
 from torchtune.data._messages import InputOutputToMessages, ShareGPTToMessages
 from torchtune.models.llama3 import llama3_tokenizer
@ -24,6 +23,7 @@ from torchtune.modules.transforms import Transform

 from llama_stack.models.llama.sku_list import resolve_model
 from llama_stack.models.llama.sku_types import Model
+from llama_stack_api import DatasetFormat

 BuildLoraModelCallable = Callable[..., torch.nn.Module]
 BuildTokenizerCallable = Callable[..., Llama3Tokenizer]
--- a/src/llama_stack/providers/inline/post_training/torchtune/post_training.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/post_training.py
@ -6,6 +6,11 @@
 from enum import Enum
 from typing import Any

+from llama_stack.providers.inline.post_training.torchtune.config import (
+    TorchtunePostTrainingConfig,
+)
+from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
+from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
 from llama_stack_api import (
    AlgorithmConfig,
    Checkpoint,
@ -21,12 +26,6 @@ from llama_stack_api import (
    TrainingConfig,
 )

-from llama_stack.providers.inline.post_training.torchtune.config import (
-    TorchtunePostTrainingConfig,
-)
-from llama_stack.providers.utils.scheduler import JobArtifact, Scheduler
-from llama_stack.providers.utils.scheduler import JobStatus as SchedulerJobStatus
-

 class TrainingArtifactType(Enum):
    CHECKPOINT = "checkpoint"
--- a/src/llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py
+++ b/src/llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py
@ -12,17 +12,6 @@ from pathlib import Path
 from typing import Any

 import torch
-from llama_stack_api import (
-    Checkpoint,
-    DataConfig,
-    DatasetIO,
-    Datasets,
-    LoraFinetuningConfig,
-    OptimizerConfig,
-    PostTrainingMetric,
-    QATFinetuningConfig,
-    TrainingConfig,
-)
 from torch import nn
 from torch.optim import Optimizer
 from torch.utils.data import DataLoader, DistributedSampler
@ -56,6 +45,17 @@ from llama_stack.providers.inline.post_training.torchtune.config import (
    TorchtunePostTrainingConfig,
 )
 from llama_stack.providers.inline.post_training.torchtune.datasets.sft import SFTDataset
+from llama_stack_api import (
+    Checkpoint,
+    DataConfig,
+    DatasetIO,
+    Datasets,
+    LoraFinetuningConfig,
+    OptimizerConfig,
+    PostTrainingMetric,
+    QATFinetuningConfig,
+    TrainingConfig,
+)

 log = get_logger(name=__name__, category="post_training")

--- a/src/llama_stack/providers/inline/safety/code_scanner/code_scanner.py
+++ b/src/llama_stack/providers/inline/safety/code_scanner/code_scanner.py
@ -10,6 +10,10 @@ from typing import TYPE_CHECKING, Any
 if TYPE_CHECKING:
    from codeshield.cs import CodeShieldScanResult

+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    ModerationObject,
    ModerationObjectResults,
@ -21,11 +25,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-
 from .config import CodeScannerConfig

 log = get_logger(name=__name__, category="safety")
--- a/src/llama_stack/providers/inline/safety/llama_guard/llama_guard.py
+++ b/src/llama_stack/providers/inline/safety/llama_guard/llama_guard.py
@ -9,6 +9,13 @@ import uuid
 from string import Template
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.log import get_logger
+from llama_stack.models.llama.datatypes import Role
+from llama_stack.models.llama.sku_types import CoreModelId
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    ImageContentItem,
    Inference,
@ -26,14 +33,6 @@ from llama_stack_api import (
    ViolationLevel,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.log import get_logger
-from llama_stack.models.llama.datatypes import Role
-from llama_stack.models.llama.sku_types import CoreModelId
-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-
 from .config import LlamaGuardConfig

 CANNED_RESPONSE_TEXT = "I can't answer that. Can I help with something else?"
--- a/src/llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py
+++ b/src/llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py
@ -7,6 +7,11 @@
 from typing import Any

 import torch
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+
+from llama_stack.core.utils.model_utils import model_local_dir
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
 from llama_stack_api import (
    ModerationObject,
    OpenAIMessageParam,
@ -18,11 +23,6 @@ from llama_stack_api import (
    ShieldStore,
    ViolationLevel,
 )
-from transformers import AutoModelForSequenceClassification, AutoTokenizer
-
-from llama_stack.core.utils.model_utils import model_local_dir
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str

 from .config import PromptGuardConfig, PromptGuardType

--- a/src/llama_stack/providers/inline/scoring/basic/scoring.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring.py
@ -5,6 +5,11 @@
 # the root directory of this source tree.
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+)
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -17,12 +22,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-)
-
 from .config import BasicScoringConfig
 from .scoring_fn.docvqa_scoring_fn import DocVQAScoringFn
 from .scoring_fn.equality_scoring_fn import EqualityScoringFn
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/docvqa_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/docvqa_scoring_fn.py
@ -8,9 +8,8 @@ import json
 import re
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.docvqa import docvqa

--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.equality import equality

--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/ifeval_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/ifeval_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.ifeval import (
    ifeval,
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_math_response_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_math_response_scoring_fn.py
@ -5,9 +5,8 @@
 # the root directory of this source tree.
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow

 from ..utils.math_utils import first_answer, normalize_final_answer, try_evaluate_frac, try_evaluate_latex
 from .fn_defs.regex_parser_math_response import (
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
@ -6,9 +6,8 @@
 import re
 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringFnParamsType, ScoringResultRow

 from .fn_defs.regex_parser_multiple_choice_answer import (
    regex_parser_multiple_choice_answer,
--- a/src/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
@ -6,9 +6,8 @@

 from typing import Any

-from llama_stack_api import ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import ScoringFnParams, ScoringResultRow

 from .fn_defs.subset_of import subset_of

--- a/src/llama_stack/providers/inline/scoring/braintrust/braintrust.py
+++ b/src/llama_stack/providers/inline/scoring/braintrust/braintrust.py
@ -17,6 +17,16 @@ from autoevals.ragas import (
    ContextRelevancy,
    Faithfulness,
 )
+from pydantic import BaseModel
+
+from llama_stack.core.datatypes import Api
+from llama_stack.core.request_headers import NeedsRequestProviderData
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+    validate_row_schema,
+)
+from llama_stack.providers.utils.scoring.aggregation_utils import aggregate_metrics
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -29,16 +39,6 @@ from llama_stack_api import (
    ScoringResult,
    ScoringResultRow,
 )
-from pydantic import BaseModel
-
-from llama_stack.core.datatypes import Api
-from llama_stack.core.request_headers import NeedsRequestProviderData
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-    validate_row_schema,
-)
-from llama_stack.providers.utils.scoring.aggregation_utils import aggregate_metrics

 from .config import BraintrustScoringConfig
 from .scoring_fn.fn_defs.answer_correctness import answer_correctness_fn_def
--- a/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
+++ b/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
@ -5,6 +5,11 @@
 # the root directory of this source tree.
 from typing import Any

+from llama_stack.core.datatypes import Api
+from llama_stack.providers.utils.common.data_schema_validator import (
+    get_valid_schemas,
+    validate_dataset_schema,
+)
 from llama_stack_api import (
    DatasetIO,
    Datasets,
@ -18,12 +23,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.core.datatypes import Api
-from llama_stack.providers.utils.common.data_schema_validator import (
-    get_valid_schemas,
-    validate_dataset_schema,
-)
-
 from .config import LlmAsJudgeScoringConfig
 from .scoring_fn.llm_as_judge_scoring_fn import LlmAsJudgeScoringFn

--- a/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
+++ b/src/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
@ -6,9 +6,8 @@
 import re
 from typing import Any

-from llama_stack_api import Inference, OpenAIChatCompletionRequestWithExtraBody, ScoringFnParams, ScoringResultRow
-
 from llama_stack.providers.utils.scoring.base_scoring_fn import RegisteredBaseScoringFn
+from llama_stack_api import Inference, OpenAIChatCompletionRequestWithExtraBody, ScoringFnParams, ScoringResultRow

 from .fn_defs.llm_as_judge_405b_simpleqa import llm_as_judge_405b_simpleqa
 from .fn_defs.llm_as_judge_base import llm_as_judge_base
--- a/src/llama_stack/providers/inline/tool_runtime/rag/context_retriever.py
+++ b/src/llama_stack/providers/inline/tool_runtime/rag/context_retriever.py
@ -6,6 +6,10 @@


 from jinja2 import Template
+
+from llama_stack.providers.utils.inference.prompt_adapter import (
+    interleaved_content_as_str,
+)
 from llama_stack_api import (
    DefaultRAGQueryGeneratorConfig,
    InterleavedContent,
@ -16,10 +20,6 @@ from llama_stack_api import (
    RAGQueryGeneratorConfig,
 )

-from llama_stack.providers.utils.inference.prompt_adapter import (
-    interleaved_content_as_str,
-)
-

 async def generate_rag_query(
    config: RAGQueryGeneratorConfig,
--- a/src/llama_stack/providers/inline/tool_runtime/rag/memory.py
+++ b/src/llama_stack/providers/inline/tool_runtime/rag/memory.py
@ -12,6 +12,11 @@ from typing import Any

 import httpx
 from fastapi import UploadFile
+from pydantic import TypeAdapter
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
+from llama_stack.providers.utils.memory.vector_store import parse_data_url
 from llama_stack_api import (
    URL,
    Files,
@ -34,11 +39,6 @@ from llama_stack_api import (
    VectorStoreChunkingStrategyStatic,
    VectorStoreChunkingStrategyStaticConfig,
 )
-from pydantic import TypeAdapter
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.prompt_adapter import interleaved_content_as_str
-from llama_stack.providers.utils.memory.vector_store import parse_data_url

 from .config import RagToolRuntimeConfig
 from .context_retriever import generate_rag_query
--- a/src/llama_stack/providers/inline/vector_io/chroma/config.py
+++ b/src/llama_stack/providers/inline/vector_io/chroma/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/faiss/config.py
+++ b/src/llama_stack/providers/inline/vector_io/faiss/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/faiss/faiss.py
+++ b/src/llama_stack/providers/inline/vector_io/faiss/faiss.py
@ -12,6 +12,13 @@ from typing import Any

 import faiss  # type: ignore[import-untyped]
 import numpy as np
+from numpy.typing import NDArray
+
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.kvstore import kvstore_impl
+from llama_stack.providers.utils.kvstore.api import KVStore
+from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
+from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex
 from llama_stack_api import (
    Chunk,
    Files,
@ -25,13 +32,6 @@ from llama_stack_api import (
    VectorStoreNotFoundError,
    VectorStoresProtocolPrivate,
 )
-from numpy.typing import NDArray
-
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import kvstore_impl
-from llama_stack.providers.utils.kvstore.api import KVStore
-from llama_stack.providers.utils.memory.openai_vector_store_mixin import OpenAIVectorStoreMixin
-from llama_stack.providers.utils.memory.vector_store import ChunkForDeletion, EmbeddingIndex, VectorStoreWithIndex

 from .config import FaissVectorIOConfig

--- a/src/llama_stack/providers/inline/vector_io/milvus/config.py
+++ b/src/llama_stack/providers/inline/vector_io/milvus/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/qdrant/config.py
+++ b/src/llama_stack/providers/inline/vector_io/qdrant/config.py
@ -7,10 +7,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel

 from llama_stack.core.storage.datatypes import KVStoreReference
+from llama_stack_api import json_schema_type


@json_schema_type
--- a/src/llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py
+++ b/src/llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py
@ -12,16 +12,6 @@ from typing import Any

 import numpy as np
 import sqlite_vec  # type: ignore[import-untyped]
-from llama_stack_api import (
-    Chunk,
-    Files,
-    Inference,
-    QueryChunksResponse,
-    VectorIO,
-    VectorStore,
-    VectorStoreNotFoundError,
-    VectorStoresProtocolPrivate,
-)
 from numpy.typing import NDArray

 from llama_stack.log import get_logger
@ -35,6 +25,16 @@ from llama_stack.providers.utils.memory.vector_store import (
    VectorStoreWithIndex,
 )
 from llama_stack.providers.utils.vector_io.vector_utils import WeightedInMemoryAggregator
+from llama_stack_api import (
+    Chunk,
+    Files,
+    Inference,
+    QueryChunksResponse,
+    VectorIO,
+    VectorStore,
+    VectorStoreNotFoundError,
+    VectorStoresProtocolPrivate,
+)

 logger = get_logger(name=__name__, category="vector_io")

--- a/src/llama_stack/providers/registry/agents.py
+++ b/src/llama_stack/providers/registry/agents.py
@ -5,14 +5,13 @@
 # the root directory of this source tree.


+from llama_stack.providers.utils.kvstore import kvstore_dependencies
 from llama_stack_api import (
    Api,
    InlineProviderSpec,
    ProviderSpec,
 )

-from llama_stack.providers.utils.kvstore import kvstore_dependencies
-

 def available_providers() -> list[ProviderSpec]:
    return [
--- a/src/llama_stack/providers/registry/files.py
+++ b/src/llama_stack/providers/registry/files.py
@ -4,9 +4,8 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack_api import Api, InlineProviderSpec, ProviderSpec, RemoteProviderSpec
-
 from llama_stack.providers.utils.sqlstore.sqlstore import sql_store_pip_packages
+from llama_stack_api import Api, InlineProviderSpec, ProviderSpec, RemoteProviderSpec


 def available_providers() -> list[ProviderSpec]:
--- a/src/llama_stack/providers/registry/tool_runtime.py
+++ b/src/llama_stack/providers/registry/tool_runtime.py
@ -5,6 +5,7 @@
 # the root directory of this source tree.


+from llama_stack.providers.registry.vector_io import DEFAULT_VECTOR_IO_DEPS
 from llama_stack_api import (
    Api,
    InlineProviderSpec,
@ -12,8 +13,6 @@ from llama_stack_api import (
    RemoteProviderSpec,
 )

-from llama_stack.providers.registry.vector_io import DEFAULT_VECTOR_IO_DEPS
-

 def available_providers() -> list[ProviderSpec]:
    return [
--- a/src/llama_stack/providers/remote/datasetio/huggingface/huggingface.py
+++ b/src/llama_stack/providers/remote/datasetio/huggingface/huggingface.py
@ -6,10 +6,9 @@
 from typing import Any
 from urllib.parse import parse_qs, urlparse

-from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse
-
 from llama_stack.providers.utils.kvstore import kvstore_impl
 from llama_stack.providers.utils.pagination import paginate_records
+from llama_stack_api import Dataset, DatasetIO, DatasetsProtocolPrivate, PaginatedResponse

 from .config import HuggingfaceDatasetIOConfig

--- a/src/llama_stack/providers/remote/datasetio/nvidia/datasetio.py
+++ b/src/llama_stack/providers/remote/datasetio/nvidia/datasetio.py
@ -7,6 +7,7 @@
 from typing import Any

 import aiohttp
+
 from llama_stack_api import URL, Dataset, PaginatedResponse, ParamType

 from .config import NvidiaDatasetIOConfig
--- a/src/llama_stack/providers/remote/eval/nvidia/eval.py
+++ b/src/llama_stack/providers/remote/eval/nvidia/eval.py
@ -6,6 +6,8 @@
 from typing import Any

 import requests
+
+from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper
 from llama_stack_api import (
    Agents,
    Benchmark,
@ -22,8 +24,6 @@ from llama_stack_api import (
    ScoringResult,
 )

-from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper
-
 from .config import NVIDIAEvalConfig

 DEFAULT_NAMESPACE = "nvidia"
--- a/src/llama_stack/providers/remote/files/openai/files.py
+++ b/src/llama_stack/providers/remote/files/openai/files.py
@ -8,6 +8,12 @@ from datetime import UTC, datetime
 from typing import Annotated, Any

 from fastapi import Depends, File, Form, Response, UploadFile
+
+from llama_stack.core.datatypes import AccessRule
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -18,12 +24,6 @@ from llama_stack_api import (
    Order,
    ResourceNotFoundError,
 )
-
-from llama_stack.core.datatypes import AccessRule
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from openai import OpenAI

 from .config import OpenAIFilesImplConfig
--- a/src/llama_stack/providers/remote/files/s3/files.py
+++ b/src/llama_stack/providers/remote/files/s3/files.py
@ -17,6 +17,12 @@ from fastapi import Depends, File, Form, Response, UploadFile
 if TYPE_CHECKING:
    from mypy_boto3_s3.client import S3Client

+from llama_stack.core.datatypes import AccessRule
+from llama_stack.core.id_generation import generate_object_id
+from llama_stack.providers.utils.files.form_data import parse_expires_after
+from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
+from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
+from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
 from llama_stack_api import (
    ExpiresAfter,
    Files,
@ -28,13 +34,6 @@ from llama_stack_api import (
    ResourceNotFoundError,
 )

-from llama_stack.core.datatypes import AccessRule
-from llama_stack.core.id_generation import generate_object_id
-from llama_stack.providers.utils.files.form_data import parse_expires_after
-from llama_stack.providers.utils.sqlstore.api import ColumnDefinition, ColumnType
-from llama_stack.providers.utils.sqlstore.authorized_sqlstore import AuthorizedSqlStore
-from llama_stack.providers.utils.sqlstore.sqlstore import sqlstore_impl
-
 from .config import S3FilesImplConfig

 # TODO: provider data for S3 credentials
--- a/src/llama_stack/providers/remote/inference/anthropic/config.py
+++ b/src/llama_stack/providers/remote/inference/anthropic/config.py
@ -6,10 +6,10 @@

 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class AnthropicProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/azure/config.py
+++ b/src/llama_stack/providers/remote/inference/azure/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field, HttpUrl, SecretStr

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type


 class AzureProviderDataValidator(BaseModel):
--- a/src/llama_stack/providers/remote/inference/bedrock/bedrock.py
+++ b/src/llama_stack/providers/remote/inference/bedrock/bedrock.py
@ -6,6 +6,11 @@

 from collections.abc import AsyncIterator, Iterable

+from openai import AuthenticationError
+
+from llama_stack.core.telemetry.tracing import get_current_span
+from llama_stack.log import get_logger
+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIChatCompletion,
    OpenAIChatCompletionChunk,
@ -15,11 +20,6 @@ from llama_stack_api import (
    OpenAIEmbeddingsRequestWithExtraBody,
    OpenAIEmbeddingsResponse,
 )
-from openai import AuthenticationError
-
-from llama_stack.core.telemetry.tracing import get_current_span
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin

 from .config import BedrockConfig

--- a/src/llama_stack/providers/remote/inference/cerebras/cerebras.py
+++ b/src/llama_stack/providers/remote/inference/cerebras/cerebras.py
@ -6,13 +6,12 @@

 from urllib.parse import urljoin

+from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
 from llama_stack_api import (
    OpenAIEmbeddingsRequestWithExtraBody,
    OpenAIEmbeddingsResponse,
 )

-from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
-
 from .config import CerebrasImplConfig


--- a/src/llama_stack/providers/remote/inference/cerebras/config.py
+++ b/src/llama_stack/providers/remote/inference/cerebras/config.py
@ -7,10 +7,10 @@
 import os
 from typing import Any

-from llama_stack_api import json_schema_type
 from pydantic import BaseModel, Field

 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
+from llama_stack_api import json_schema_type

 DEFAULT_BASE_URL = "https://api.cerebras.ai"

--- a/Show more
+++ b/Show more