chore(migrate apis): move VectorDBWithIndex from embeddings to openai_embeddings (#3294)

# What does this PR do? migrates VectorDBWithIndex to use openai_embeddings part of #2365 ## Test Plan existing unit tests
2025-12-03 18:00:36 +00:00 · 2025-08-31 17:48:35 -04:00 · 2025-08-31 17:48:35 -04:00 · 478b4ff1e6
commit 478b4ff1e6
parent b12cd528ef
20 changed files with 8376 additions and 13 deletions
--- a/tests/unit/providers/vector_io/test_qdrant.py
+++ b/tests/unit/providers/vector_io/test_qdrant.py
@ -11,7 +11,8 @@ from unittest.mock import AsyncMock, MagicMock, patch

 import pytest

-from llama_stack.apis.inference import EmbeddingsResponse, Inference
+from llama_stack.apis.inference import Inference
+from llama_stack.apis.inference.inference import OpenAIEmbeddingData, OpenAIEmbeddingsResponse, OpenAIEmbeddingUsage
 from llama_stack.apis.vector_io import (
    QueryChunksResponse,
    VectorDB,
@ -68,7 +69,13 @@ def mock_vector_db_store(mock_vector_db) -> MagicMock:
@pytest.fixture
 def mock_api_service(sample_embeddings):
    mock_api_service = MagicMock(spec=Inference)
-    mock_api_service.embeddings = AsyncMock(return_value=EmbeddingsResponse(embeddings=sample_embeddings))
+    mock_api_service.openai_embeddings = AsyncMock(
+        return_value=OpenAIEmbeddingsResponse(
+            model="mock-embedding-model",
+            data=[OpenAIEmbeddingData(embedding=sample, index=i) for i, sample in enumerate(sample_embeddings)],
+            usage=OpenAIEmbeddingUsage(prompt_tokens=10, total_tokens=10),
+        )
+    )
    return mock_api_service


--- a/tests/unit/rag/test_vector_store.py
+++ b/tests/unit/rag/test_vector_store.py
@ -13,6 +13,7 @@ from unittest.mock import AsyncMock, MagicMock
 import numpy as np
 import pytest

+from llama_stack.apis.inference.inference import OpenAIEmbeddingData
 from llama_stack.apis.tools import RAGDocument
 from llama_stack.apis.vector_io import Chunk
 from llama_stack.providers.utils.memory.vector_store import (
@ -218,11 +219,16 @@ class TestVectorDBWithIndex:
            Chunk(content="Test 2", embedding=None, metadata={}),
        ]

-        mock_inference_api.embeddings.return_value.embeddings = [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]]
+        mock_inference_api.openai_embeddings.return_value.data = [
+            OpenAIEmbeddingData(embedding=[0.1, 0.2, 0.3], index=0),
+            OpenAIEmbeddingData(embedding=[0.4, 0.5, 0.6], index=1),
+        ]

        await vector_db_with_index.insert_chunks(chunks)

-        mock_inference_api.embeddings.assert_called_once_with("test-model without embeddings", ["Test 1", "Test 2"])
+        mock_inference_api.openai_embeddings.assert_called_once_with(
+            "test-model without embeddings", ["Test 1", "Test 2"]
+        )
        mock_index.add_chunks.assert_called_once()
        args = mock_index.add_chunks.call_args[0]
        assert args[0] == chunks
@ -246,7 +252,7 @@ class TestVectorDBWithIndex:

        await vector_db_with_index.insert_chunks(chunks)

-        mock_inference_api.embeddings.assert_not_called()
+        mock_inference_api.openai_embeddings.assert_not_called()
        mock_index.add_chunks.assert_called_once()
        args = mock_index.add_chunks.call_args[0]
        assert args[0] == chunks
@ -288,7 +294,7 @@ class TestVectorDBWithIndex:
        with pytest.raises(ValueError, match="has dimension 4, expected 3"):
            await vector_db_with_index.insert_chunks(chunks_wrong_dim)

-        mock_inference_api.embeddings.assert_not_called()
+        mock_inference_api.openai_embeddings.assert_not_called()
        mock_index.add_chunks.assert_not_called()

    async def test_insert_chunks_with_partially_precomputed_embeddings(self):
@ -308,11 +314,14 @@ class TestVectorDBWithIndex:
            Chunk(content="Test 3", embedding=None, metadata={}),
        ]

-        mock_inference_api.embeddings.return_value.embeddings = [[0.1, 0.1, 0.1], [0.3, 0.3, 0.3]]
+        mock_inference_api.openai_embeddings.return_value.data = [
+            OpenAIEmbeddingData(embedding=[0.1, 0.1, 0.1], index=0),
+            OpenAIEmbeddingData(embedding=[0.3, 0.3, 0.3], index=1),
+        ]

        await vector_db_with_index.insert_chunks(chunks)

-        mock_inference_api.embeddings.assert_called_once_with(
+        mock_inference_api.openai_embeddings.assert_called_once_with(
            "test-model with partial embeddings", ["Test 1", "Test 3"]
        )
        mock_index.add_chunks.assert_called_once()