api refactor

2025-12-17 18:12:43 +00:00 · 2024-11-07 13:54:26 -08:00 · 2024-11-07 13:54:26 -08:00 · 51c20f9c29
commit 51c20f9c29
parent 97dcd5704c
8 changed files with 64 additions and 59 deletions
--- a/llama_stack/providers/inline/meta_reference/eval/eval.py
+++ b/llama_stack/providers/inline/meta_reference/eval/eval.py
@ -7,11 +7,17 @@ from enum import Enum
 from llama_models.llama3.api.datatypes import *  # noqa: F403

 from .....apis.common.job_types import Job
-from .....apis.eval.eval import BenchmarkEvalTaskConfig
+from .....apis.eval.eval import (
+    AppEvalTaskConfig,
+    BenchmarkEvalTaskConfig,
+    Eval,
+    EvalTaskConfig,
+    EvaluateResponse,
+    JobStatus,
+)
 from llama_stack.apis.common.type_system import *  # noqa: F403
 from llama_stack.apis.datasetio import DatasetIO
 from llama_stack.apis.datasets import Datasets
-from llama_stack.apis.eval import Eval, EvalTaskConfig, EvaluateResponse, JobStatus
 from llama_stack.apis.eval_tasks import EvalTaskDef
 from llama_stack.apis.inference import Inference
 from llama_stack.apis.scoring import Scoring
@ -88,21 +94,21 @@ class MetaReferenceEvalImpl(Eval, EvalTasksProtocolPrivate):
                f"Dataset {dataset_id} does not have a correct input schema in {expected_schemas}"
            )

-    async def run_benchmark_eval(
+    async def run_benchmark(
        self,
        benchmark_id: str,
-        eval_task_config: BenchmarkEvalTaskConfig,
+        benchmark_config: BenchmarkEvalTaskConfig,
    ) -> Job:
        raise NotImplementedError("Benchmark eval is not implemented yet")

    async def run_eval(
        self,
-        eval_task_def: EvalTaskDef,
-        eval_task_config: EvalTaskConfig,
+        task: EvalTaskDef,
+        task_config: AppEvalTaskConfig,
    ) -> Job:
-        dataset_id = eval_task_def.dataset_id
-        candidate = eval_task_config.eval_candidate
-        scoring_functions = eval_task_def.scoring_functions
+        dataset_id = task.dataset_id
+        candidate = task_config.eval_candidate
+        scoring_functions = task.scoring_functions

        await self.validate_eval_input_dataset_schema(dataset_id=dataset_id)
        all_rows = await self.datasetio_api.get_rows_paginated(
@ -112,7 +118,7 @@ class MetaReferenceEvalImpl(Eval, EvalTasksProtocolPrivate):
        res = await self.evaluate_rows(
            input_rows=all_rows.rows,
            scoring_functions=scoring_functions,
-            eval_task_config=eval_task_config,
+            eval_task_config=task_config,
        )

        # TODO: currently needs to wait for generation before returning
@ -179,8 +185,21 @@ class MetaReferenceEvalImpl(Eval, EvalTasksProtocolPrivate):
            for input_r, generated_r in zip(input_rows, generations)
        ]

+        if (
+            eval_task_config.type == "app"
+            and eval_task_config.scoring_params is not None
+        ):
+            scoring_functions_dict = {
+                scoring_fn_id: eval_task_config.scoring_params.get(scoring_fn_id, None)
+                for scoring_fn_id in scoring_functions
+            }
+        else:
+            scoring_functions_dict = {
+                scoring_fn_id: None for scoring_fn_id in scoring_functions
+            }
+
        score_response = await self.scoring_api.score(
-            input_rows=score_input_rows, scoring_functions=scoring_functions
+            input_rows=score_input_rows, scoring_functions=scoring_functions_dict
        )

        return EvaluateResponse(generations=generations, scores=score_response.results)