Implement embeddings for ollama

2025-07-29 15:23:51 +00:00 · 2024-10-23 17:18:08 -07:00 · 2024-10-23 17:18:08 -07:00 · 302555b11a
commit 302555b11a
parent 0cec86453b
4 changed files with 65 additions and 1 deletions
--- a/llama_stack/apis/inference/inference.py
+++ b/llama_stack/apis/inference/inference.py
@ -195,6 +195,15 @@ class BatchChatCompletionResponse(BaseModel):
    batch: List[ChatCompletionResponse]
@json_schema_type
 class EmbeddingRequest(BaseModel):
    model: str
    contents: List[InterleavedTextMedia]
    sampling_params: Optional[SamplingParams] = SamplingParams()
    truncate: Optional[bool] = True
    logprobs: Optional[LogProbConfig] = None
@json_schema_type
 class EmbeddingsResponse(BaseModel):
    embeddings: List[List[float]]
@ -241,4 +250,7 @@ class Inference(Protocol):
        self,
        model: str,
        contents: List[InterleavedTextMedia],
        sampling_params: Optional[SamplingParams] = SamplingParams(),
        truncate: Optional[bool] = True,
        logprobs: Optional[LogProbConfig] = None,
    ) -> EmbeddingsResponse: ...
--- a/llama_stack/distribution/routers/routers.py
+++ b/llama_stack/distribution/routers/routers.py
@ -128,10 +128,16 @@ class InferenceRouter(Inference):
        self,
        model: str,
        contents: List[InterleavedTextMedia],
        sampling_params: Optional[SamplingParams] = SamplingParams(),
        truncate: Optional[bool] = True,
        logprobs: Optional[LogProbConfig] = None,
    ) -> EmbeddingsResponse:
        return await self.routing_table.get_provider_impl(model).embeddings(
            model=model,
            contents=contents,
            sampling_params=sampling_params,
            truncate=truncate,
            logprobs=logprobs,
        )
--- a/llama_stack/providers/adapters/inference/ollama/ollama.py
+++ b/llama_stack/providers/adapters/inference/ollama/ollama.py
@ -234,5 +234,30 @@ class OllamaInferenceAdapter(Inference, ModelsProtocolPrivate):
        self,
        model: str,
        contents: List[InterleavedTextMedia],
        sampling_params: Optional[SamplingParams] = SamplingParams(),
        truncate: Optional[bool] = True,
        logprobs: Optional[LogProbConfig] = None,
    ) -> EmbeddingsResponse:
-        raise NotImplementedError()
+
        request = EmbeddingRequest(
            model=model,
            contents=contents,
            sampling_params=sampling_params,
            truncate=truncate,
            logprobs=logprobs,
        )
        return await self._embeddings(request)
    async def _embeddings(self, request: EmbeddingRequest) -> EmbeddingsResponse:
        params = self._get_params_for_embeddings(request)
        r = await self.client.embed(**params)
        return EmbeddingsResponse(embeddings=r["embeddings"])
    def _get_params_for_embeddings(self, request: EmbeddingRequest) -> dict:
        sampling_options = get_sampling_options(request)
        return {
            "model": OLLAMA_SUPPORTED_MODELS[request.model],
            "input": request.contents,
            "options": sampling_options,
            "truncate": request.truncate,
        }
--- a/llama_stack/providers/tests/inference/test_inference.py
+++ b/llama_stack/providers/tests/inference/test_inference.py
@ -170,6 +170,27 @@ async def test_completion(inference_settings):
    assert last.stop_reason == StopReason.out_of_tokens
@pytest.mark.asyncio
 async def test_embed(inference_settings):
    inference_impl = inference_settings["impl"]
    params = inference_settings["common_params"]
    provider = inference_impl.routing_table.get_provider_impl(params["model"])
    if provider.__provider_spec__.provider_type not in ("remote::ollama",):
        pytest.skip("Other inference providers don't support completion() yet")
    response = await inference_impl.embeddings(
        contents=["Roses are red"],
        model=params["model"],
        sampling_params=SamplingParams(
            max_tokens=50,
        ),
    )
    assert isinstance(response, EmbeddingsResponse)
    assert len(response.embeddings) > 0
@pytest.mark.asyncio
 async def test_chat_completion_non_streaming(inference_settings, sample_messages):
    inference_impl = inference_settings["impl"]