Fix meta-reference GPU implementation for inference

2025-12-03 18:00:36 +00:00 · 2025-01-22 18:31:59 -08:00 · 2025-01-22 18:31:59 -08:00 · 23f1980f9c
commit 23f1980f9c
parent f4b0f2af8b
2 changed files with 2 additions and 2 deletions
--- a/llama_stack/providers/inline/inference/meta_reference/parallel_utils.py
+++ b/llama_stack/providers/inline/inference/meta_reference/parallel_utils.py
@ -357,8 +357,8 @@ class ModelParallelProcessGroup:
        assert not self.running, "inference already running"

        self.running = True
-        self.request_socket.send(encode_msg(TaskRequest(task=req)))
        try:
+            self.request_socket.send(encode_msg(TaskRequest(task=req)))
            while True:
                obj_json = self.request_socket.recv()
                obj = parse_message(obj_json)
--- a/tests/client-sdk/inference/test_inference.py
+++ b/tests/client-sdk/inference/test_inference.py
@ -54,7 +54,7 @@ def base64_image_url():
    with open(image_path, "rb") as image_file:
        # Convert the image to base64
        base64_string = base64.b64encode(image_file.read()).decode("utf-8")
-        base64_url = f"data:image;base64,{base64_string}"
+        base64_url = f"data:image/png;base64,{base64_string}"
        return base64_url