processor registry

2025-12-11 03:46:03 +00:00 · 2024-10-14 16:25:06 -07:00 · 2024-10-14 16:25:06 -07:00 · a22c31b8a4
commit a22c31b8a4
parent 95fd53d292
6 changed files with 33 additions and 10 deletions
--- a/llama_stack/apis/evals/evals.py
+++ b/llama_stack/apis/evals/evals.py
@ -89,15 +89,21 @@ class EvaluatePostprocessConfig(BaseModel):
    kwargs: Optional[Dict[str, Any]] = None
@json_schema_type
 class EvaluateProcessorConfig(BaseModel):
    processor_identifier: str
    preprocess_config: Optional[EvaluatePreprocessConfig] = None
    postprocess_config: Optional[EvaluatePostprocessConfig] = None
@json_schema_type
 class EvaluateJudgeScoringConfig(BaseModel): ...
@json_schema_type
 class LLMJudgeConfig(BaseModel):
-    judge_preprocess_config: EvaluatePreprocessConfig
+    judge_processor_config: EvaluateProcessorConfig
    judge_model_generation_config: EvaluateModelGenerationConfig
    judge_postprocess_config: EvaluatePostprocessConfig
    judge_scoring_config: EvaluateJudgeScoringConfig
@ -116,9 +122,8 @@ class EvaluateScoringConfig(BaseModel):
@json_schema_type
 class EvaluateTaskConfig(BaseModel):
    dataset_config: EvaluateDatasetConfig
-    preprocess_config: Optional[EvaluatePreprocessConfig] = None
+    processor_config: EvaluateProcessorConfig
    generation_config: EvaluateModelGenerationConfig
    postprocess_config: Optional[EvaluatePostprocessConfig] = None
    scoring_config: EvaluateScoringConfig
--- a/llama_stack/distribution/registry/generator_processors/init.py
+++ b/llama_stack/distribution/registry/generator_processors/init.py
@ -4,9 +4,16 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from llama_stack.apis.evals import *  # noqa: F403
 from llama_stack.providers.impls.meta_reference.evals.processor import *  # noqa: F403
 from ..registry import Registry
 # TODO: decide whether we should group dataset+processor together via Tasks
 GeneratorProcessorRegistry = Registry[BaseGeneratorProcessor]()
-class GeneratorProcessorRegistry(Registry[BaseGeneratorProcessor]):
+PROCESSOR_REGISTRY = {
-    _REGISTRY: Dict[str, BaseGeneratorProcessor] = {}
+    "mmlu": MMLUProcessor,
 }
 for k, v in PROCESSOR_REGISTRY.items():
    GeneratorProcessorRegistry.register(k, v)
--- a/llama_stack/providers/impls/meta_reference/evals/evals.py
+++ b/llama_stack/providers/impls/meta_reference/evals/evals.py
@ -47,6 +47,9 @@ class MetaReferenceEvalsImpl(Evals):
                    dataset_name=dataset,
                    row_limit=3,
                ),
                processor_config=EvaluateProcessorConfig(
                    processor_identifier="mmlu",
                ),
                generation_config=EvaluateModelGenerationConfig(
                    model=model,
                ),
--- a/llama_stack/providers/impls/meta_reference/evals/processor/init.py
+++ b/llama_stack/providers/impls/meta_reference/evals/processor/init.py
@ -3,3 +3,4 @@
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from .mmlu_processor import MMLUProcessor  # noqa: F401
--- a/llama_stack/providers/impls/meta_reference/evals/scorer/init.py
+++ b/llama_stack/providers/impls/meta_reference/evals/scorer/init.py
@ -3,3 +3,5 @@
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from .basic_scorers import *  # noqa: F401 F403
 from .aggregate_scorer import *  # noqa: F401 F403
--- a/llama_stack/providers/impls/meta_reference/evals/tasks/run_eval_task.py
+++ b/llama_stack/providers/impls/meta_reference/evals/tasks/run_eval_task.py
@ -4,15 +4,17 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from llama_stack.distribution.registry.datasets import DatasetRegistry
 from llama_stack.distribution.registry.generator_processors import (
    GeneratorProcessorRegistry,
 )
 from llama_stack.distribution.registry.scorers import ScorerRegistry
 from llama_stack.providers.impls.meta_reference.evals.scorer.aggregate_scorer import *  # noqa: F403
 from llama_stack.providers.impls.meta_reference.evals.scorer.basic_scorers import *  # noqa: F403
 from llama_stack.providers.impls.meta_reference.evals.generator.inference_generator import (
    InferenceGenerator,
 )
-from llama_stack.providers.impls.meta_reference.evals.processor.mmlu_processor import (
+
    MMLUProcessor,
 )
 from llama_stack.apis.evals import *  # noqa: F403
 from llama_stack.apis.inference import *  # noqa: F403
@ -46,7 +48,10 @@ class RunEvalTask(BaseTask):
        print(f"Running on {len(dataset)} samples")
        # F1
-        processor = MMLUProcessor()
+        print(GeneratorProcessorRegistry.names())
        processor = GeneratorProcessorRegistry.get(
            eval_task_config.processor_config.processor_identifier
        )()
        preprocessed = processor.preprocess(dataset)
        # Generation