Small updates to quantization config

2025-06-28 02:53:30 +00:00 · 2024-10-24 12:08:43 -07:00 · 2024-10-24 12:08:43 -07:00 · 161aef0aae
commit 161aef0aae
parent 8eceebec98
2 changed files with 3 additions and 3 deletions
--- a/llama_stack/apis/inference/inference.py
+++ b/llama_stack/apis/inference/inference.py
@ -41,7 +41,7 @@ class Bf16QuantizationConfig(BaseModel):
@json_schema_type
 class Int4QuantizationConfig(BaseModel):
    type: Literal[QuantizationType.int4.value] = QuantizationType.int4.value
-    scheme: Optional[str] = None
+    scheme: Optional[str] = "int4_weight_int8_dynamic_activation"


 QuantizationConfig = Annotated[