fix agentic calling inference

2025-10-05 04:17:32 +00:00 · 2024-09-11 18:30:09 -07:00 · 2024-09-11 18:30:09 -07:00 · f55ffa8b53
commit f55ffa8b53
parent 2501b3d7de
4 changed files with 8 additions and 22 deletions
--- a/llama_toolchain/inference/meta_reference/inference.py
+++ b/llama_toolchain/inference/meta_reference/inference.py
@ -77,14 +77,6 @@ class MetaReferenceInferenceImpl(Inference):
            logprobs=logprobs,
        )

-        async for chunk in self.chat_completion_impl(request):
-            yield chunk
-
-    async def chat_completion_impl(
-        self, request: ChatCompletionRequest
-    ) -> AsyncIterator[
-        Union[ChatCompletionResponseStreamChunk, ChatCompletionResponse]
-    ]:
        messages = prepare_messages(request)
        model = resolve_model(request.model)
        if model is None: