New quantized models (#301)

2025-06-27 18:50:41 +00:00 · 2024-10-24 08:38:56 -07:00 · 2024-10-24 08:38:56 -07:00 · 7afe51c84d
commit 7afe51c84d
parent 05a8d47b98
6 changed files with 292 additions and 21 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -37,6 +37,7 @@ def available_providers() -> List[ProviderSpec]:
                META_REFERENCE_DEPS
                + [
                    "fbgemm-gpu",
+                    "torchao==0.5.0",
                ]
            ),
            module="llama_stack.providers.impls.meta_reference.inference",