llm judge llamastack scorer

2025-12-15 23:59:26 +00:00 · 2024-10-15 13:25:46 -07:00 · 2024-10-15 13:25:46 -07:00 · fa68809a2e
commit fa68809a2e
parent 0c4ed66ecc
10 changed files with 199 additions and 7 deletions
--- a/llama_stack/distribution/registry/generator_processors/init.py
+++ b/llama_stack/distribution/registry/generator_processors/init.py
@ -13,6 +13,7 @@ GeneratorProcessorRegistry = Registry[BaseGeneratorProcessor]()

 PROCESSOR_REGISTRY = {
    "mmlu": MMLUProcessor,
+    "judge": JudgeProcessor,
 }

 for k, v in PROCESSOR_REGISTRY.items():
--- a/llama_stack/distribution/registry/scorers/init.py
+++ b/llama_stack/distribution/registry/scorers/init.py
@ -7,6 +7,7 @@
 from llama_stack.apis.evals import *  # noqa: F403
 from llama_stack.providers.impls.meta_reference.evals.scorer.basic_scorers import *  # noqa: F403
 from llama_stack.providers.impls.meta_reference.evals.scorer.braintrust_scorer import *  # noqa: F403
+from llama_stack.providers.impls.meta_reference.evals.scorer.llm_judge_scorer import *  # noqa: F403

 from ..registry import Registry

@ -16,6 +17,7 @@ ScorerRegistry = Registry[BaseScorer]()
 SCORER_REGISTRY = {
    "accuracy": AccuracyScorer,
    "random": RandomScorer,
+    "llamastack-llm-judge": LlamaStackLLMJudgeScorer,
    "braintrust::factuality": BraintrustFactualityScorer,
    "braintrust::answer-correctness": BraintrustAnswerCorrectnessScorer,
 }