feat: split API and provider specs into separate llama-stack-api pkg (#3895)

# What does this PR do? Extract API definitions and provider specifications into a standalone llama-stack-api package that can be published to PyPI independently of the main llama-stack server. see: https://github.com/llamastack/llama-stack/pull/2978 and https://github.com/llamastack/llama-stack/pull/2978#issuecomment-3145115942 Motivation External providers currently import from llama-stack, which overrides the installed version and causes dependency conflicts. This separation allows external providers to: - Install only the type definitions they need without server dependencies - Avoid version conflicts with the installed llama-stack package - Be versioned and released independently This enables us to re-enable external provider module tests that were previously blocked by these import conflicts. Changes - Created llama-stack-api package with minimal dependencies (pydantic, jsonschema) - Moved APIs, providers datatypes, strong_typing, and schema_utils - Updated all imports from llama_stack.* to llama_stack_api.* - Configured local editable install for development workflow - Updated linting and type-checking configuration for both packages Next Steps - Publish llama-stack-api to PyPI - Update external provider dependencies - Re-enable external provider module tests Pre-cursor PRs to this one: - #4093 - #3954 - #4064 These PRs moved key pieces _out_ of the Api pkg, limiting the scope of change here. relates to #3237 ## Test Plan Package builds successfully and can be imported independently. All pre-commit hooks pass with expected exclusions maintained. --------- Signed-off-by: Charlie Doern <cdoern@redhat.com>
2025-12-03 09:53:45 +00:00 · 2025-11-13 14:51:17 -05:00 · 2025-11-13 14:51:17 -05:00 · 840ad75fe9
commit 840ad75fe9
parent ceb716b9a0
358 changed files with 2337 additions and 1424 deletions
--- a/tests/unit/conversations/test_api_models.py
+++ b/tests/unit/conversations/test_api_models.py
@ -5,11 +5,7 @@
 # the root directory of this source tree.


-from llama_stack.apis.conversations.conversations import (
-    Conversation,
-    ConversationItem,
-    ConversationItemList,
-)
+from llama_stack_api import Conversation, ConversationItem, ConversationItemList


 def test_conversation_model_defaults():
--- a/tests/unit/conversations/test_conversations.py
+++ b/tests/unit/conversations/test_conversations.py
@ -8,14 +8,11 @@ import tempfile
 from pathlib import Path

 import pytest
+from llama_stack_api import OpenAIResponseInputMessageContentText, OpenAIResponseMessage
 from openai.types.conversations.conversation import Conversation as OpenAIConversation
 from openai.types.conversations.conversation_item import ConversationItem as OpenAIConversationItem
 from pydantic import TypeAdapter

-from llama_stack.apis.agents.openai_responses import (
-    OpenAIResponseInputMessageContentText,
-    OpenAIResponseMessage,
-)
 from llama_stack.core.conversations.conversations import (
    ConversationServiceConfig,
    ConversationServiceImpl,
--- a/tests/unit/core/routers/test_safety_router.py
+++ b/tests/unit/core/routers/test_safety_router.py
@ -6,8 +6,8 @@

 from unittest.mock import AsyncMock

-from llama_stack.apis.safety.safety import ModerationObject, ModerationObjectResults
-from llama_stack.apis.shields import ListShieldsResponse, Shield
+from llama_stack_api import ListShieldsResponse, ModerationObject, ModerationObjectResults, Shield
+
 from llama_stack.core.datatypes import SafetyConfig
 from llama_stack.core.routers.safety import SafetyRouter

--- a/tests/unit/core/routers/test_vector_io.py
+++ b/tests/unit/core/routers/test_vector_io.py
@ -7,8 +7,8 @@
 from unittest.mock import AsyncMock, Mock

 import pytest
+from llama_stack_api import OpenAICreateVectorStoreRequestWithExtraBody

-from llama_stack.apis.vector_io import OpenAICreateVectorStoreRequestWithExtraBody
 from llama_stack.core.routers.vector_io import VectorIORouter


--- a/tests/unit/core/test_stack_validation.py
+++ b/tests/unit/core/test_stack_validation.py
@ -9,12 +9,10 @@
 from unittest.mock import AsyncMock

 import pytest
+from llama_stack_api import Api, ListModelsResponse, ListShieldsResponse, Model, ModelType, Shield

-from llama_stack.apis.models import ListModelsResponse, Model, ModelType
-from llama_stack.apis.shields import ListShieldsResponse, Shield
 from llama_stack.core.datatypes import QualifiedModel, SafetyConfig, StackRunConfig, StorageConfig, VectorStoresConfig
 from llama_stack.core.stack import validate_safety_config, validate_vector_stores_config
-from llama_stack.providers.datatypes import Api


 class TestVectorStoresValidation:
--- a/tests/unit/distribution/routers/test_routing_tables.py
+++ b/tests/unit/distribution/routers/test_routing_tables.py
@ -9,15 +9,22 @@
 from unittest.mock import AsyncMock

 import pytest
+from llama_stack_api import (
+    URL,
+    Api,
+    Dataset,
+    DatasetPurpose,
+    ListToolDefsResponse,
+    Model,
+    ModelNotFoundError,
+    ModelType,
+    NumberType,
+    Shield,
+    ToolDef,
+    ToolGroup,
+    URIDataSource,
+)

-from llama_stack.apis.common.content_types import URL
-from llama_stack.apis.common.errors import ModelNotFoundError
-from llama_stack.apis.common.type_system import NumberType
-from llama_stack.apis.datasets.datasets import Dataset, DatasetPurpose, URIDataSource
-from llama_stack.apis.datatypes import Api
-from llama_stack.apis.models import Model, ModelType
-from llama_stack.apis.shields.shields import Shield
-from llama_stack.apis.tools import ListToolDefsResponse, ToolDef, ToolGroup
 from llama_stack.core.datatypes import RegistryEntrySource
 from llama_stack.core.routing_tables.benchmarks import BenchmarksRoutingTable
 from llama_stack.core.routing_tables.datasets import DatasetsRoutingTable
--- a/tests/unit/distribution/test_api_recordings.py
+++ b/tests/unit/distribution/test_api_recordings.py
@ -9,10 +9,9 @@ from pathlib import Path
 from unittest.mock import patch

 import pytest
-from openai import AsyncOpenAI

 # Import the real Pydantic response types instead of using Mocks
-from llama_stack.apis.inference import (
+from llama_stack_api import (
    OpenAIAssistantMessageParam,
    OpenAIChatCompletion,
    OpenAIChoice,
@ -20,6 +19,8 @@ from llama_stack.apis.inference import (
    OpenAIEmbeddingsResponse,
    OpenAIEmbeddingUsage,
 )
+from openai import AsyncOpenAI
+
 from llama_stack.testing.api_recorder import (
    APIRecordingMode,
    ResponseStorage,
--- a/tests/unit/distribution/test_distribution.py
+++ b/tests/unit/distribution/test_distribution.py
@ -9,6 +9,7 @@ from unittest.mock import patch

 import pytest
 import yaml
+from llama_stack_api import ProviderSpec
 from pydantic import BaseModel, Field, ValidationError

 from llama_stack.core.datatypes import Api, Provider, StackRunConfig
@ -22,7 +23,6 @@ from llama_stack.core.storage.datatypes import (
    SqlStoreReference,
    StorageConfig,
 )
-from llama_stack.providers.datatypes import ProviderSpec


 class SampleConfig(BaseModel):
@ -312,7 +312,7 @@ pip_packages:
        """Test loading an external provider from a module (success path)."""
        from types import SimpleNamespace

-        from llama_stack.providers.datatypes import Api, ProviderSpec
+        from llama_stack_api import Api, ProviderSpec

        # Simulate a provider module with get_provider_spec
        fake_spec = ProviderSpec(
@ -395,8 +395,9 @@ pip_packages:

    def test_external_provider_from_module_building(self, mock_providers):
        """Test loading an external provider from a module during build (building=True, partial spec)."""
+        from llama_stack_api import Api
+
        from llama_stack.core.datatypes import BuildConfig, BuildProvider, DistributionSpec
-        from llama_stack.providers.datatypes import Api

        # No importlib patch needed, should not import module when type of `config` is BuildConfig or DistributionSpec
        build_config = BuildConfig(
@ -456,8 +457,9 @@ class TestGetExternalProvidersFromModule:
        """Test provider with module containing version spec (e.g., package==1.0.0)."""
        from types import SimpleNamespace

+        from llama_stack_api import ProviderSpec
+
        from llama_stack.core.distribution import get_external_providers_from_module
-        from llama_stack.providers.datatypes import ProviderSpec

        fake_spec = ProviderSpec(
            api=Api.inference,
@ -593,8 +595,9 @@ class TestGetExternalProvidersFromModule:
        """Test when get_provider_spec returns a list of specs."""
        from types import SimpleNamespace

+        from llama_stack_api import ProviderSpec
+
        from llama_stack.core.distribution import get_external_providers_from_module
-        from llama_stack.providers.datatypes import ProviderSpec

        spec1 = ProviderSpec(
            api=Api.inference,
@ -641,8 +644,9 @@ class TestGetExternalProvidersFromModule:
        """Test that list return filters specs by provider_type."""
        from types import SimpleNamespace

+        from llama_stack_api import ProviderSpec
+
        from llama_stack.core.distribution import get_external_providers_from_module
-        from llama_stack.providers.datatypes import ProviderSpec

        spec1 = ProviderSpec(
            api=Api.inference,
@ -689,8 +693,9 @@ class TestGetExternalProvidersFromModule:
        """Test that list return adds multiple different provider_types when config requests them."""
        from types import SimpleNamespace

+        from llama_stack_api import ProviderSpec
+
        from llama_stack.core.distribution import get_external_providers_from_module
-        from llama_stack.providers.datatypes import ProviderSpec

        # Module returns both inline and remote variants
        spec1 = ProviderSpec(
@ -828,8 +833,9 @@ class TestGetExternalProvidersFromModule:
        """Test multiple APIs with providers."""
        from types import SimpleNamespace

+        from llama_stack_api import ProviderSpec
+
        from llama_stack.core.distribution import get_external_providers_from_module
-        from llama_stack.providers.datatypes import ProviderSpec

        inference_spec = ProviderSpec(
            api=Api.inference,
--- a/tests/unit/files/test_files.py
+++ b/tests/unit/files/test_files.py
@ -6,10 +6,8 @@


 import pytest
+from llama_stack_api import OpenAIFilePurpose, Order, ResourceNotFoundError

-from llama_stack.apis.common.errors import ResourceNotFoundError
-from llama_stack.apis.common.responses import Order
-from llama_stack.apis.files import OpenAIFilePurpose
 from llama_stack.core.access_control.access_control import default_policy
 from llama_stack.core.storage.datatypes import SqliteSqlStoreConfig, SqlStoreReference
 from llama_stack.providers.inline.files.localfs import (
--- a/tests/unit/providers/batches/test_reference.py
+++ b/tests/unit/providers/batches/test_reference.py
@ -58,9 +58,7 @@ import json
 from unittest.mock import AsyncMock, MagicMock

 import pytest
-
-from llama_stack.apis.batches import BatchObject
-from llama_stack.apis.common.errors import ConflictError, ResourceNotFoundError
+from llama_stack_api import BatchObject, ConflictError, ResourceNotFoundError


 class TestReferenceBatchesImpl:
--- a/tests/unit/providers/batches/test_reference_idempotency.py
+++ b/tests/unit/providers/batches/test_reference_idempotency.py
@ -43,8 +43,7 @@ Key Behaviors Tested:
 import asyncio

 import pytest
-
-from llama_stack.apis.common.errors import ConflictError
+from llama_stack_api import ConflictError


 class TestReferenceBatchesIdempotency:
--- a/tests/unit/providers/files/test_s3_files.py
+++ b/tests/unit/providers/files/test_s3_files.py
@ -8,9 +8,7 @@ from unittest.mock import patch

 import pytest
 from botocore.exceptions import ClientError
-
-from llama_stack.apis.common.errors import ResourceNotFoundError
-from llama_stack.apis.files import OpenAIFilePurpose
+from llama_stack_api import OpenAIFilePurpose, ResourceNotFoundError


 class TestS3FilesImpl:
@ -228,7 +226,7 @@ class TestS3FilesImpl:

            mock_now.return_value = 0

-            from llama_stack.apis.files import ExpiresAfter
+            from llama_stack_api import ExpiresAfter

            sample_text_file.filename = "test_expired_file"
            uploaded = await s3_provider.openai_upload_file(
@ -260,7 +258,7 @@ class TestS3FilesImpl:

    async def test_unsupported_expires_after_anchor(self, s3_provider, sample_text_file):
        """Unsupported anchor value should raise ValueError."""
-        from llama_stack.apis.files import ExpiresAfter
+        from llama_stack_api import ExpiresAfter

        sample_text_file.filename = "test_unsupported_expires_after_anchor"

@ -273,7 +271,7 @@ class TestS3FilesImpl:

    async def test_nonint_expires_after_seconds(self, s3_provider, sample_text_file):
        """Non-integer seconds in expires_after should raise ValueError."""
-        from llama_stack.apis.files import ExpiresAfter
+        from llama_stack_api import ExpiresAfter

        sample_text_file.filename = "test_nonint_expires_after_seconds"

@ -286,7 +284,7 @@ class TestS3FilesImpl:

    async def test_expires_after_seconds_out_of_bounds(self, s3_provider, sample_text_file):
        """Seconds outside allowed range should raise ValueError."""
-        from llama_stack.apis.files import ExpiresAfter
+        from llama_stack_api import ExpiresAfter

        with pytest.raises(ValueError, match="greater than or equal to 3600"):
            await s3_provider.openai_upload_file(
--- a/tests/unit/providers/files/test_s3_files_auth.py
+++ b/tests/unit/providers/files/test_s3_files_auth.py
@ -7,9 +7,8 @@
 from unittest.mock import patch

 import pytest
+from llama_stack_api import OpenAIFilePurpose, ResourceNotFoundError

-from llama_stack.apis.common.errors import ResourceNotFoundError
-from llama_stack.apis.files import OpenAIFilePurpose
 from llama_stack.core.datatypes import User
 from llama_stack.providers.remote.files.s3.files import S3FilesImpl

--- a/tests/unit/providers/inference/test_bedrock_adapter.py
+++ b/tests/unit/providers/inference/test_bedrock_adapter.py
@ -8,9 +8,9 @@ from types import SimpleNamespace
 from unittest.mock import AsyncMock, MagicMock

 import pytest
+from llama_stack_api import OpenAIChatCompletionRequestWithExtraBody
 from openai import AuthenticationError

-from llama_stack.apis.inference import OpenAIChatCompletionRequestWithExtraBody
 from llama_stack.providers.remote.inference.bedrock.bedrock import BedrockInferenceAdapter
 from llama_stack.providers.remote.inference.bedrock.config import BedrockConfig

--- a/tests/unit/providers/inference/test_remote_vllm.py
+++ b/tests/unit/providers/inference/test_remote_vllm.py
@ -9,8 +9,9 @@ import time
 from unittest.mock import AsyncMock, MagicMock, PropertyMock, patch

 import pytest
-
-from llama_stack.apis.inference import (
+from llama_stack_api import (
+    HealthStatus,
+    Model,
    OpenAIAssistantMessageParam,
    OpenAIChatCompletion,
    OpenAIChatCompletionRequestWithExtraBody,
@ -20,10 +21,9 @@ from llama_stack.apis.inference import (
    OpenAICompletionRequestWithExtraBody,
    ToolChoice,
 )
-from llama_stack.apis.models import Model
+
 from llama_stack.core.routers.inference import InferenceRouter
 from llama_stack.core.routing_tables.models import ModelsRoutingTable
-from llama_stack.providers.datatypes import HealthStatus
 from llama_stack.providers.remote.inference.vllm.config import VLLMInferenceAdapterConfig
 from llama_stack.providers.remote.inference.vllm.vllm import VLLMInferenceAdapter

--- a/tests/unit/providers/inline/agents/meta_reference/responses/test_streaming.py
+++ b/tests/unit/providers/inline/agents/meta_reference/responses/test_streaming.py
@ -7,8 +7,8 @@
 from unittest.mock import AsyncMock

 import pytest
+from llama_stack_api import ToolDef

-from llama_stack.apis.tools import ToolDef
 from llama_stack.providers.inline.agents.meta_reference.responses.streaming import (
    convert_tooldef_to_chat_tool,
 )
--- a/tests/unit/providers/nvidia/test_datastore.py
+++ b/tests/unit/providers/nvidia/test_datastore.py
@ -8,9 +8,8 @@ import os
 from unittest.mock import patch

 import pytest
+from llama_stack_api import Dataset, DatasetPurpose, ResourceType, URIDataSource

-from llama_stack.apis.datasets import Dataset, DatasetPurpose, URIDataSource
-from llama_stack.apis.resource import ResourceType
 from llama_stack.providers.remote.datasetio.nvidia.config import NvidiaDatasetIOConfig
 from llama_stack.providers.remote.datasetio.nvidia.datasetio import NvidiaDatasetIOAdapter

--- a/tests/unit/providers/nvidia/test_eval.py
+++ b/tests/unit/providers/nvidia/test_eval.py
@ -8,12 +8,18 @@ import os
 from unittest.mock import MagicMock, patch

 import pytest
+from llama_stack_api import (
+    Benchmark,
+    BenchmarkConfig,
+    EvaluateResponse,
+    Job,
+    JobStatus,
+    ModelCandidate,
+    ResourceType,
+    SamplingParams,
+    TopPSamplingStrategy,
+)

-from llama_stack.apis.benchmarks import Benchmark
-from llama_stack.apis.common.job_types import Job, JobStatus
-from llama_stack.apis.eval.eval import BenchmarkConfig, EvaluateResponse, ModelCandidate, SamplingParams
-from llama_stack.apis.inference.inference import TopPSamplingStrategy
-from llama_stack.apis.resource import ResourceType
 from llama_stack.models.llama.sku_types import CoreModelId
 from llama_stack.providers.remote.eval.nvidia.config import NVIDIAEvalConfig
 from llama_stack.providers.remote.eval.nvidia.eval import NVIDIAEvalImpl
--- a/tests/unit/providers/nvidia/test_parameters.py
+++ b/tests/unit/providers/nvidia/test_parameters.py
@ -9,8 +9,7 @@ import warnings
 from unittest.mock import patch

 import pytest
-
-from llama_stack.apis.post_training.post_training import (
+from llama_stack_api import (
    DataConfig,
    DatasetFormat,
    EfficiencyConfig,
@ -19,6 +18,7 @@ from llama_stack.apis.post_training.post_training import (
    OptimizerType,
    TrainingConfig,
 )
+
 from llama_stack.core.library_client import convert_pydantic_to_json_value
 from llama_stack.providers.remote.post_training.nvidia.post_training import (
    NvidiaPostTrainingAdapter,
--- a/tests/unit/providers/nvidia/test_rerank_inference.py
+++ b/tests/unit/providers/nvidia/test_rerank_inference.py
@ -8,8 +8,8 @@ from unittest.mock import AsyncMock, MagicMock, patch

 import aiohttp
 import pytest
+from llama_stack_api import ModelType

-from llama_stack.apis.models import ModelType
 from llama_stack.providers.remote.inference.nvidia.config import NVIDIAConfig
 from llama_stack.providers.remote.inference.nvidia.nvidia import NVIDIAInferenceAdapter
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
--- a/tests/unit/providers/nvidia/test_safety.py
+++ b/tests/unit/providers/nvidia/test_safety.py
@ -9,14 +9,15 @@ from typing import Any
 from unittest.mock import AsyncMock, MagicMock, patch

 import pytest
-
-from llama_stack.apis.inference import (
+from llama_stack_api import (
    OpenAIAssistantMessageParam,
    OpenAIUserMessageParam,
+    ResourceType,
+    RunShieldResponse,
+    Shield,
+    ViolationLevel,
 )
-from llama_stack.apis.resource import ResourceType
-from llama_stack.apis.safety import RunShieldResponse, ViolationLevel
-from llama_stack.apis.shields import Shield
+
 from llama_stack.providers.remote.safety.nvidia.config import NVIDIASafetyConfig
 from llama_stack.providers.remote.safety.nvidia.nvidia import NVIDIASafetyAdapter

--- a/tests/unit/providers/nvidia/test_supervised_fine_tuning.py
+++ b/tests/unit/providers/nvidia/test_supervised_fine_tuning.py
@ -9,8 +9,7 @@ import warnings
 from unittest.mock import patch

 import pytest
-
-from llama_stack.apis.post_training.post_training import (
+from llama_stack_api import (
    DataConfig,
    DatasetFormat,
    LoraFinetuningConfig,
@ -19,6 +18,7 @@ from llama_stack.apis.post_training.post_training import (
    QATFinetuningConfig,
    TrainingConfig,
 )
+
 from llama_stack.core.library_client import convert_pydantic_to_json_value
 from llama_stack.providers.remote.post_training.nvidia.post_training import (
    ListNvidiaPostTrainingJobs,
--- a/tests/unit/providers/test_bedrock.py
+++ b/tests/unit/providers/test_bedrock.py
@ -7,7 +7,8 @@
 from types import SimpleNamespace
 from unittest.mock import AsyncMock, PropertyMock, patch

-from llama_stack.apis.inference import OpenAIChatCompletionRequestWithExtraBody
+from llama_stack_api import OpenAIChatCompletionRequestWithExtraBody
+
 from llama_stack.providers.remote.inference.bedrock.bedrock import BedrockInferenceAdapter
 from llama_stack.providers.remote.inference.bedrock.config import BedrockConfig

--- a/tests/unit/providers/utils/inference/test_openai_mixin.py
+++ b/tests/unit/providers/utils/inference/test_openai_mixin.py
@ -10,10 +10,9 @@ from typing import Any
 from unittest.mock import AsyncMock, MagicMock, Mock, PropertyMock, patch

 import pytest
+from llama_stack_api import Model, ModelType, OpenAIChatCompletionRequestWithExtraBody, OpenAIUserMessageParam
 from pydantic import BaseModel, Field

-from llama_stack.apis.inference import Model, OpenAIChatCompletionRequestWithExtraBody, OpenAIUserMessageParam
-from llama_stack.apis.models import ModelType
 from llama_stack.core.request_headers import request_provider_data_context
 from llama_stack.providers.utils.inference.model_registry import RemoteInferenceProviderConfig
 from llama_stack.providers.utils.inference.openai_mixin import OpenAIMixin
--- a/tests/unit/providers/utils/inference/test_prompt_adapter.py
+++ b/tests/unit/providers/utils/inference/test_prompt_adapter.py
@ -4,10 +4,8 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack.apis.inference import (
-    OpenAIAssistantMessageParam,
-    OpenAIUserMessageParam,
-)
+from llama_stack_api import OpenAIAssistantMessageParam, OpenAIUserMessageParam
+
 from llama_stack.models.llama.datatypes import RawTextItem
 from llama_stack.providers.utils.inference.prompt_adapter import (
    convert_openai_message_to_raw_message,
--- a/tests/unit/providers/utils/memory/test_vector_store.py
+++ b/tests/unit/providers/utils/memory/test_vector_store.py
@ -7,9 +7,8 @@
 from unittest.mock import AsyncMock, MagicMock, patch

 import pytest
+from llama_stack_api import URL, RAGDocument, TextContentItem

-from llama_stack.apis.common.content_types import URL, TextContentItem
-from llama_stack.apis.tools import RAGDocument
 from llama_stack.providers.utils.memory.vector_store import content_from_data_and_mime_type, content_from_doc


--- a/tests/unit/providers/utils/test_model_registry.py
+++ b/tests/unit/providers/utils/test_model_registry.py
@ -34,8 +34,8 @@
 #

 import pytest
+from llama_stack_api import Model

-from llama_stack.apis.models import Model
 from llama_stack.providers.utils.inference.model_registry import ModelRegistryHelper, ProviderModelEntry


--- a/tests/unit/providers/vector_io/conftest.py
+++ b/tests/unit/providers/vector_io/conftest.py
@ -9,9 +9,8 @@ from unittest.mock import AsyncMock, MagicMock, patch

 import numpy as np
 import pytest
+from llama_stack_api import Chunk, ChunkMetadata, QueryChunksResponse, VectorStore

-from llama_stack.apis.vector_io import Chunk, ChunkMetadata, QueryChunksResponse
-from llama_stack.apis.vector_stores import VectorStore
 from llama_stack.core.storage.datatypes import KVStoreReference, SqliteKVStoreConfig
 from llama_stack.providers.inline.vector_io.faiss.config import FaissVectorIOConfig
 from llama_stack.providers.inline.vector_io.faiss.faiss import FaissIndex, FaissVectorIOAdapter
--- a/tests/unit/providers/vector_io/test_faiss.py
+++ b/tests/unit/providers/vector_io/test_faiss.py
@ -9,11 +9,8 @@ from unittest.mock import MagicMock, patch

 import numpy as np
 import pytest
+from llama_stack_api import Chunk, Files, HealthStatus, QueryChunksResponse, VectorStore

-from llama_stack.apis.files import Files
-from llama_stack.apis.vector_io import Chunk, QueryChunksResponse
-from llama_stack.apis.vector_stores import VectorStore
-from llama_stack.providers.datatypes import HealthStatus
 from llama_stack.providers.inline.vector_io.faiss.config import FaissVectorIOConfig
 from llama_stack.providers.inline.vector_io.faiss.faiss import (
    FaissIndex,
--- a/tests/unit/providers/vector_io/test_sqlite_vec.py
+++ b/tests/unit/providers/vector_io/test_sqlite_vec.py
@ -8,8 +8,8 @@ import asyncio

 import numpy as np
 import pytest
+from llama_stack_api import Chunk, QueryChunksResponse

-from llama_stack.apis.vector_io import Chunk, QueryChunksResponse
 from llama_stack.providers.inline.vector_io.sqlite_vec.sqlite_vec import (
    SQLiteVecIndex,
    SQLiteVecVectorIOAdapter,
--- a/tests/unit/providers/vector_io/test_vector_io_openai_vector_stores.py
+++ b/tests/unit/providers/vector_io/test_vector_io_openai_vector_stores.py
@ -10,17 +10,17 @@ from unittest.mock import AsyncMock, patch

 import numpy as np
 import pytest
-
-from llama_stack.apis.common.errors import VectorStoreNotFoundError
-from llama_stack.apis.vector_io import (
+from llama_stack_api import (
    Chunk,
    OpenAICreateVectorStoreFileBatchRequestWithExtraBody,
    OpenAICreateVectorStoreRequestWithExtraBody,
    QueryChunksResponse,
+    VectorStore,
    VectorStoreChunkingStrategyAuto,
    VectorStoreFileObject,
+    VectorStoreNotFoundError,
 )
-from llama_stack.apis.vector_stores import VectorStore
+
 from llama_stack.providers.inline.vector_io.sqlite_vec.sqlite_vec import VECTOR_DBS_PREFIX

 # This test is a unit test for the inline VectorIO providers. This should only contain
@ -222,7 +222,7 @@ async def test_insert_chunks_missing_db_raises(vector_io_adapter):

 async def test_insert_chunks_with_missing_document_id(vector_io_adapter):
    """Ensure no KeyError when document_id is missing or in different places."""
-    from llama_stack.apis.vector_io import Chunk, ChunkMetadata
+    from llama_stack_api import Chunk, ChunkMetadata

    fake_index = AsyncMock()
    vector_io_adapter.cache["db1"] = fake_index
@ -255,7 +255,7 @@ async def test_insert_chunks_with_missing_document_id(vector_io_adapter):

 async def test_document_id_with_invalid_type_raises_error():
    """Ensure TypeError is raised when document_id is not a string."""
-    from llama_stack.apis.vector_io import Chunk
+    from llama_stack_api import Chunk

    # Integer document_id should raise TypeError
    from llama_stack.providers.utils.vector_io.vector_utils import generate_chunk_id
--- a/tests/unit/providers/vector_io/test_vector_utils.py
+++ b/tests/unit/providers/vector_io/test_vector_utils.py
@ -4,7 +4,8 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-from llama_stack.apis.vector_io import Chunk, ChunkMetadata
+from llama_stack_api import Chunk, ChunkMetadata
+
 from llama_stack.providers.utils.vector_io.vector_utils import generate_chunk_id

 # This test is a unit test for the chunk_utils.py helpers. This should only contain
--- a/tests/unit/rag/test_rag_query.py
+++ b/tests/unit/rag/test_rag_query.py
@ -7,13 +7,8 @@
 from unittest.mock import AsyncMock, MagicMock

 import pytest
+from llama_stack_api import Chunk, ChunkMetadata, QueryChunksResponse, RAGQueryConfig

-from llama_stack.apis.tools.rag_tool import RAGQueryConfig
-from llama_stack.apis.vector_io import (
-    Chunk,
-    ChunkMetadata,
-    QueryChunksResponse,
-)
 from llama_stack.providers.inline.tool_runtime.rag.memory import MemoryToolRuntimeImpl


--- a/tests/unit/rag/test_vector_store.py
+++ b/tests/unit/rag/test_vector_store.py
@ -12,13 +12,8 @@ from unittest.mock import AsyncMock, MagicMock

 import numpy as np
 import pytest
+from llama_stack_api import Chunk, OpenAIEmbeddingData, OpenAIEmbeddingsRequestWithExtraBody, RAGDocument

-from llama_stack.apis.inference.inference import (
-    OpenAIEmbeddingData,
-    OpenAIEmbeddingsRequestWithExtraBody,
-)
-from llama_stack.apis.tools import RAGDocument
-from llama_stack.apis.vector_io import Chunk
 from llama_stack.providers.utils.memory.vector_store import (
    URL,
    VectorStoreWithIndex,
--- a/tests/unit/registry/test_registry.py
+++ b/tests/unit/registry/test_registry.py
@ -6,9 +6,8 @@


 import pytest
+from llama_stack_api import Model, VectorStore

-from llama_stack.apis.inference import Model
-from llama_stack.apis.vector_stores import VectorStore
 from llama_stack.core.datatypes import VectorStoreWithOwner
 from llama_stack.core.storage.datatypes import KVStoreReference, SqliteKVStoreConfig
 from llama_stack.core.store.registry import (
@ -304,7 +303,8 @@ async def test_double_registration_different_objects(disk_dist_registry):

 async def test_double_registration_with_cache(cached_disk_dist_registry):
    """Test double registration behavior with caching enabled."""
-    from llama_stack.apis.models import ModelType
+    from llama_stack_api import ModelType
+
    from llama_stack.core.datatypes import ModelWithOwner

    model1 = ModelWithOwner(
--- a/tests/unit/registry/test_registry_acl.py
+++ b/tests/unit/registry/test_registry_acl.py
@ -5,7 +5,8 @@
 # the root directory of this source tree.


-from llama_stack.apis.models import ModelType
+from llama_stack_api import ModelType
+
 from llama_stack.core.datatypes import ModelWithOwner, User
 from llama_stack.core.store.registry import CachedDiskDistributionRegistry

--- a/tests/unit/server/test_access_control.py
+++ b/tests/unit/server/test_access_control.py
@ -8,10 +8,9 @@ from unittest.mock import MagicMock, Mock, patch

 import pytest
 import yaml
+from llama_stack_api import Api, ModelType
 from pydantic import TypeAdapter, ValidationError

-from llama_stack.apis.datatypes import Api
-from llama_stack.apis.models import ModelType
 from llama_stack.core.access_control.access_control import AccessDeniedError, is_action_allowed
 from llama_stack.core.datatypes import AccessRule, ModelWithOwner, User
 from llama_stack.core.routing_tables.models import ModelsRoutingTable
--- a/tests/unit/server/test_auth.py
+++ b/tests/unit/server/test_auth.py
@ -144,7 +144,7 @@ def middleware_with_mocks(mock_auth_endpoint):
    middleware = AuthenticationMiddleware(mock_app, auth_config, {})

    # Mock the route_impls to simulate finding routes with required scopes
-    from llama_stack.schema_utils import WebMethod
+    from llama_stack_api import WebMethod

    routes = {
        ("POST", "/test/scoped"): WebMethod(route="/test/scoped", method="POST", required_scope="test.read"),
--- a/tests/unit/server/test_resolver.py
+++ b/tests/unit/server/test_resolver.py
@ -9,9 +9,9 @@ import sys
 from typing import Any, Protocol
 from unittest.mock import AsyncMock, MagicMock

+from llama_stack_api import Inference, InlineProviderSpec, ProviderSpec
 from pydantic import BaseModel, Field

-from llama_stack.apis.inference import Inference
 from llama_stack.core.datatypes import Api, Provider, StackRunConfig
 from llama_stack.core.resolver import resolve_impls
 from llama_stack.core.routers.inference import InferenceRouter
@ -25,7 +25,6 @@ from llama_stack.core.storage.datatypes import (
    SqlStoreReference,
    StorageConfig,
 )
-from llama_stack.providers.datatypes import InlineProviderSpec, ProviderSpec
 from llama_stack.providers.utils.kvstore import register_kvstore_backends
 from llama_stack.providers.utils.sqlstore.sqlstore import register_sqlstore_backends

--- a/tests/unit/server/test_sse.py
+++ b/tests/unit/server/test_sse.py
@ -9,8 +9,8 @@ import logging  # allow-direct-logging
 from unittest.mock import AsyncMock, MagicMock

 import pytest
+from llama_stack_api import PaginatedResponse

-from llama_stack.apis.common.responses import PaginatedResponse
 from llama_stack.core.server.server import create_dynamic_typed_route, create_sse_event, sse_generator


--- a/tests/unit/tools/test_tools_json_schema.py
+++ b/tests/unit/tools/test_tools_json_schema.py
@ -9,9 +9,9 @@ Unit tests for JSON Schema-based tool definitions.
 Tests the new input_schema and output_schema fields.
 """

+from llama_stack_api import ToolDef
 from pydantic import ValidationError

-from llama_stack.apis.tools import ToolDef
 from llama_stack.models.llama.datatypes import BuiltinTool, ToolDefinition


--- a/tests/unit/utils/inference/test_inference_store.py
+++ b/tests/unit/utils/inference/test_inference_store.py
@ -7,14 +7,14 @@
 import time

 import pytest
-
-from llama_stack.apis.inference import (
+from llama_stack_api import (
    OpenAIAssistantMessageParam,
    OpenAIChatCompletion,
    OpenAIChoice,
    OpenAIUserMessageParam,
    Order,
 )
+
 from llama_stack.core.storage.datatypes import InferenceStoreReference, SqliteSqlStoreConfig
 from llama_stack.providers.utils.inference.inference_store import InferenceStore
 from llama_stack.providers.utils.sqlstore.sqlstore import register_sqlstore_backends
--- a/tests/unit/utils/responses/test_responses_store.py
+++ b/tests/unit/utils/responses/test_responses_store.py
@ -9,13 +9,8 @@ from tempfile import TemporaryDirectory
 from uuid import uuid4

 import pytest
+from llama_stack_api import OpenAIMessageParam, OpenAIResponseInput, OpenAIResponseObject, OpenAIUserMessageParam, Order

-from llama_stack.apis.agents import Order
-from llama_stack.apis.agents.openai_responses import (
-    OpenAIResponseInput,
-    OpenAIResponseObject,
-)
-from llama_stack.apis.inference import OpenAIMessageParam, OpenAIUserMessageParam
 from llama_stack.core.storage.datatypes import ResponsesStoreReference, SqliteSqlStoreConfig
 from llama_stack.providers.utils.responses.responses_store import ResponsesStore
 from llama_stack.providers.utils.sqlstore.sqlstore import register_sqlstore_backends
@ -46,7 +41,7 @@ def create_test_response_object(

 def create_test_response_input(content: str, input_id: str) -> OpenAIResponseInput:
    """Helper to create a test response input."""
-    from llama_stack.apis.agents.openai_responses import OpenAIResponseMessage
+    from llama_stack_api import OpenAIResponseMessage

    return OpenAIResponseMessage(
        id=input_id,