Fix meta-reference GPU implementation for inference

2025-12-03 09:53:45 +00:00 · 2025-01-22 18:31:59 -08:00 · 2025-01-22 18:31:59 -08:00 · 23f1980f9c
commit 23f1980f9c
parent f4b0f2af8b
2 changed files with 2 additions and 2 deletions
--- a/llama_stack/providers/inline/inference/meta_reference/parallel_utils.py
+++ b/llama_stack/providers/inline/inference/meta_reference/parallel_utils.py
@ -357,8 +357,8 @@ class ModelParallelProcessGroup:
        assert not self.running, "inference already running"

        self.running = True
-        self.request_socket.send(encode_msg(TaskRequest(task=req)))
        try:
+            self.request_socket.send(encode_msg(TaskRequest(task=req)))
            while True:
                obj_json = self.request_socket.recv()
                obj = parse_message(obj_json)