Fix Meta reference GPU implementation (#663)

By performing in-place mutations, we lost. Never in life do that.
2025-12-03 09:53:45 +00:00 · 2024-12-19 14:09:45 -08:00 · 2024-12-19 14:09:45 -08:00 · 540fc4d717
commit 540fc4d717
parent f19eb8eee3
2 changed files with 15 additions and 7 deletions
--- a/llama_stack/providers/utils/inference/prompt_adapter.py
+++ b/llama_stack/providers/utils/inference/prompt_adapter.py
@ -94,9 +94,14 @@ async def convert_request_to_raw(
            d = m.model_dump()
            d["content"] = content
            messages.append(RawMessage(**d))
-        request.messages = messages
+
+        d = request.model_dump()
+        d["messages"] = messages
+        request = ChatCompletionRequestWithRawContent(**d)
    else:
-        request.content = await interleaved_content_convert_to_raw(request.content)
+        d = request.model_dump()
+        d["content"] = await interleaved_content_convert_to_raw(request.content)
+        request = CompletionRequestWithRawContent(**d)

    return request