Split off meta-reference-quantized provider

2024-10-10 15:54:08 -07:00 · 2024-10-10 15:54:08 -07:00 · 1ff0476002
commit 1ff0476002
parent 7ff5800dea
10 changed files with 54 additions and 58 deletions
--- a/llama_stack/providers/impls/meta_reference/inference/parallel_utils.py
+++ b/llama_stack/providers/impls/meta_reference/inference/parallel_utils.py
@ -11,7 +11,7 @@ import tempfile
 import time
 import uuid
 from enum import Enum
-from typing import Any, Callable, Generator, List, Literal, Optional, Union
+from typing import Callable, Generator, List, Literal, Optional, Union

 import torch

@ -317,7 +317,7 @@ def start_model_parallel_process(

    request_socket.send(encode_msg(ReadyRequest()))
    response = request_socket.recv()
-    print(f"Finished model load {response}")
+    print("Loaded model...")

    return request_socket, process