agentic loop has a RAG implementation

2025-12-03 18:00:36 +00:00 · 2024-08-23 15:20:40 -07:00 · 2024-08-23 15:20:40 -07:00 · 14637bea66
commit 14637bea66
parent 77d6055d9f
4 changed files with 245 additions and 111 deletions
--- a/llama_toolchain/inference/api/endpoints.py
+++ b/llama_toolchain/inference/api/endpoints.py
@ -101,6 +101,11 @@ class BatchChatCompletionResponse(BaseModel):
    completion_message_batch: List[CompletionMessage]


+@json_schema_type
+class EmbeddingsResponse(BaseModel):
+    embeddings: List[List[float]]
+
+
 class Inference(Protocol):
    @webmethod(route="/inference/completion")
    async def completion(
@ -114,6 +119,13 @@ class Inference(Protocol):
        request: ChatCompletionRequest,
    ) -> Union[ChatCompletionResponse, ChatCompletionResponseStreamChunk]: ...

+    @webmethod(route="/inference/embeddings")
+    async def embeddings(
+        self,
+        model: str,
+        contents: List[InterleavedTextMedia],
+    ) -> EmbeddingsResponse: ...
+
    @webmethod(route="/inference/batch_completion")
    async def batch_completion(
        self,