Update llama_stack/providers/inline/inference/vllm/config.py

Co-authored-by: Sébastien Han <seb@redhat.com>
2025-08-12 04:50:39 +00:00 · 2025-02-15 17:37:28 -08:00 · 2025-02-15 17:37:28 -08:00 · 10920cc0f5
commit 10920cc0f5
parent bb024daf21
1 changed files with 1 additions and 1 deletions
--- a/llama_stack/providers/inline/inference/vllm/config.py
+++ b/llama_stack/providers/inline/inference/vllm/config.py
@ -26,7 +26,7 @@ class VLLMConfig(BaseModel):
        description="Maximum number of tokens to generate.",
    )
    max_model_len: int = Field(default=4096, description="Maximum context length to use during serving.")
-    max_num_seqs: int = Field(default=4, description="Maximum parallel batch size for generation")
+    max_num_seqs: int = Field(default=4, description="Maximum parallel batch size for generation.")
    enforce_eager: bool = Field(
        default=False,
        description="Whether to use eager mode for inference (otherwise cuda graphs are used).",