rename quant types to use _mixed naming

2026-01-02 16:34:30 +00:00 · 2025-04-07 12:57:58 -07:00 · 2025-04-07 12:57:58 -07:00 · 76004eacb4
commit 76004eacb4
parent b239c57c54
3 changed files with 11 additions and 11 deletions
--- a/llama_stack/models/llama/llama4/quantization/loader.py
+++ b/llama_stack/models/llama/llama4/quantization/loader.py
@ -91,7 +91,7 @@ def convert_to_quantized_model(
            log_status(f"Rank {rank}: Quantizing int4 weights from bf16")

            def apply_quantization(_, weight):
-                return quantize_int4(weight, output_device=torch.device("cuda"))
+                return quantize_int4(weight, fp8_activation_scale_ub, output_device=torch.device("cuda"))

    else:
        fp8_scales_path = os.path.join(checkpoint_dir, f"fp8_scales_{rank}.pt")