diff --git a/llama_stack/providers/impls/meta_reference/agents/rag/context_retriever.py b/llama_stack/providers/impls/meta_reference/agents/rag/context_retriever.py
index 5ebb94a31..57e5d0dee 100644
--- a/llama_stack/providers/impls/meta_reference/agents/rag/context_retriever.py
+++ b/llama_stack/providers/impls/meta_reference/agents/rag/context_retriever.py
@@ -63,11 +63,9 @@ async def llm_rag_query_generator(
     model = config.model
     message = UserMessage(content=content)
     response = inference_api.chat_completion(
-        ChatCompletionRequest(
-            model=model,
-            messages=[message],
-            stream=False,
-        )
+        model=model,
+        messages=[message],
+        stream=False,
     )
 
     async for chunk in response: