chore: turn OpenAIMixin into a pydantic.BaseModel

- implement get_api_key instead of relying on LiteLLMOpenAIMixin.get_api_key - remove use of LiteLLMOpenAIMixin - add default initialize/shutdown methods to OpenAIMixin - remove __init__s to allow proper pydantic construction - remove dead code from vllm adapter and associated / duplicate unit tests - update vllm adapter to use openaimixin for model registration - remove ModelRegistryHelper from fireworks & together adapters - remove Inference from nvidia adapter - complete type hints on embedding_model_metadata - allow extra fields on OpenAIMixin, for model_store, __provider_id__, etc - new recordings for ollama
2025-10-04 12:07:34 +00:00 · 2025-10-02 20:47:54 -04:00 · 2025-10-02 20:47:54 -04:00 · 60f0056cbc
commit 60f0056cbc
parent ce77c27ff8
57 changed files with 12520 additions and 1254 deletions
--- a/llama_stack/providers/remote/inference/cerebras/cerebras.py
+++ b/llama_stack/providers/remote/inference/cerebras/cerebras.py
@ -11,7 +11,6 @@ from cerebras.cloud.sdk import AsyncCerebras
 from llama_stack.apis.inference import (
    ChatCompletionRequest,
    CompletionRequest,
-    Inference,
    OpenAIEmbeddingsResponse,
    TopKSamplingStrategy,
 )
@ -27,14 +26,12 @@ from llama_stack.providers.utils.inference.prompt_adapter import (
 from .config import CerebrasImplConfig


-class CerebrasInferenceAdapter(
-    OpenAIMixin,
-    Inference,
-):
-    def __init__(self, config: CerebrasImplConfig) -> None:
-        self.config = config
+class CerebrasInferenceAdapter(OpenAIMixin):
+    config: CerebrasImplConfig

-        # TODO: make this use provider data, etc. like other providers
+    _cerebras_client: AsyncCerebras | None = None
+
+    async def initialize(self) -> None:
        self._cerebras_client = AsyncCerebras(
            base_url=self.config.base_url,
            api_key=self.config.api_key.get_secret_value(),
@ -46,12 +43,6 @@ class CerebrasInferenceAdapter(
    def get_base_url(self) -> str:
        return urljoin(self.config.base_url, "v1")

-    async def initialize(self) -> None:
-        return
-
-    async def shutdown(self) -> None:
-        pass
-
    async def _get_params(self, request: ChatCompletionRequest | CompletionRequest) -> dict:
        if request.sampling_params and isinstance(request.sampling_params.strategy, TopKSamplingStrategy):
            raise ValueError("`top_k` not supported by Cerebras")