Merge branch 'main' into nvidia-eval-integration

2025-12-30 01:09:32 +00:00 · 2025-04-15 13:36:42 -04:00 · 2025-04-15 13:36:42 -04:00 · 72711287ec
commit 72711287ec
parent 841d8fdf4f 83b5523e2d
96 changed files with 9868 additions and 1444 deletions
--- a/llama_stack/templates/dev/run.yaml
+++ b/llama_stack/templates/dev/run.yaml
@ -386,6 +386,16 @@ models:
  provider_id: groq
  provider_model_id: groq/llama-4-scout-17b-16e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Scout-17B-16E-Instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
 - metadata: {}
  model_id: groq/llama-4-maverick-17b-128e-instruct
  provider_id: groq
@ -396,6 +406,16 @@ models:
  provider_id: groq
  provider_model_id: groq/llama-4-maverick-17b-128e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Maverick-17B-128E-Instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
 - metadata:
    embedding_dimension: 384
  model_id: all-MiniLM-L6-v2
--- a/llama_stack/templates/groq/run.yaml
+++ b/llama_stack/templates/groq/run.yaml
@ -158,6 +158,16 @@ models:
  provider_id: groq
  provider_model_id: groq/llama-4-scout-17b-16e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Scout-17B-16E-Instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
 - metadata: {}
  model_id: groq/llama-4-maverick-17b-128e-instruct
  provider_id: groq
@ -168,6 +178,16 @@ models:
  provider_id: groq
  provider_model_id: groq/llama-4-maverick-17b-128e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Maverick-17B-128E-Instruct
+  provider_id: groq
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
 - metadata:
    embedding_dimension: 384
  model_id: all-MiniLM-L6-v2
--- a/llama_stack/templates/meta-reference-gpu/run-with-safety.yaml
+++ b/llama_stack/templates/meta-reference-gpu/run-with-safety.yaml
@ -16,11 +16,12 @@ providers:
    provider_type: inline::meta-reference
    config:
      model: ${env.INFERENCE_MODEL}
-      max_seq_len: 4096
      checkpoint_dir: ${env.INFERENCE_CHECKPOINT_DIR:null}
      quantization:
        type: ${env.QUANTIZATION_TYPE:bf16}
      model_parallel_size: ${env.MODEL_PARALLEL_SIZE:0}
+      max_batch_size: ${env.MAX_BATCH_SIZE:1}
+      max_seq_len: ${env.MAX_SEQ_LEN:4096}
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
@ -28,11 +29,12 @@ providers:
    provider_type: inline::meta-reference
    config:
      model: ${env.SAFETY_MODEL}
-      max_seq_len: 4096
      checkpoint_dir: ${env.SAFETY_CHECKPOINT_DIR:null}
      quantization:
        type: ${env.QUANTIZATION_TYPE:bf16}
      model_parallel_size: ${env.MODEL_PARALLEL_SIZE:0}
+      max_batch_size: ${env.MAX_BATCH_SIZE:1}
+      max_seq_len: ${env.MAX_SEQ_LEN:4096}
  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
--- a/llama_stack/templates/meta-reference-gpu/run.yaml
+++ b/llama_stack/templates/meta-reference-gpu/run.yaml
@ -16,11 +16,12 @@ providers:
    provider_type: inline::meta-reference
    config:
      model: ${env.INFERENCE_MODEL}
-      max_seq_len: 4096
      checkpoint_dir: ${env.INFERENCE_CHECKPOINT_DIR:null}
      quantization:
        type: ${env.QUANTIZATION_TYPE:bf16}
      model_parallel_size: ${env.MODEL_PARALLEL_SIZE:0}
+      max_batch_size: ${env.MAX_BATCH_SIZE:1}
+      max_seq_len: ${env.MAX_SEQ_LEN:4096}
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
--- a/llama_stack/templates/verification/run.yaml
+++ b/llama_stack/templates/verification/run.yaml
@ -474,6 +474,16 @@ models:
  provider_id: groq-openai-compat
  provider_model_id: groq/llama-4-scout-17b-16e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  provider_id: groq-openai-compat
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Scout-17B-16E-Instruct
+  provider_id: groq-openai-compat
+  provider_model_id: groq/meta-llama/llama-4-scout-17b-16e-instruct
+  model_type: llm
 - metadata: {}
  model_id: groq/llama-4-maverick-17b-128e-instruct
  provider_id: groq-openai-compat
@ -484,6 +494,16 @@ models:
  provider_id: groq-openai-compat
  provider_model_id: groq/llama-4-maverick-17b-128e-instruct
  model_type: llm
+- metadata: {}
+  model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  provider_id: groq-openai-compat
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
+- metadata: {}
+  model_id: meta-llama/Llama-4-Maverick-17B-128E-Instruct
+  provider_id: groq-openai-compat
+  provider_model_id: groq/meta-llama/llama-4-maverick-17b-128e-instruct
+  model_type: llm
 - metadata: {}
  model_id: Meta-Llama-3.1-8B-Instruct
  provider_id: sambanova-openai-compat