Merge branch 'evals_5' into evals_6

2025-12-12 04:00:42 +00:00 · 2024-10-24 12:01:41 -07:00 · 2024-10-24 12:01:41 -07:00 · 32a496ab0f
commit 32a496ab0f
parent 737fcb795f a3a8f32541
5 changed files with 19 additions and 7 deletions
--- a/llama_stack/apis/scoring/scoring.py
+++ b/llama_stack/apis/scoring/scoring.py
@ -13,7 +13,15 @@ from llama_models.llama3.api.datatypes import *  # noqa: F403
 from llama_stack.apis.scoring_functions import *  # noqa: F403
-ScoringResult = Dict[str, Any]
+# mapping of metric to value
 ScoringResultRow = Dict[str, Any]
@json_schema_type
 class ScoringResult(BaseModel):
    score_rows: List[ScoringResultRow]
    # aggregated metrics to value
    aggregated_results: Dict[str, Any]
@json_schema_type
--- a/llama_stack/providers/impls/meta_reference/scoring/scorer/base_scorer.py
+++ b/llama_stack/providers/impls/meta_reference/scoring/scorer/base_scorer.py
@ -26,12 +26,12 @@ class BaseScorer(ABC):
        return self.__class__.__name__
    @abstractmethod
-    def score_row(self, input_row: Dict[str, Any]) -> ScoringResult:
+    def score_row(self, input_row: Dict[str, Any]) -> ScoringResultRow:
        raise NotImplementedError()
    @abstractmethod
-    def aggregate(self, scoring_results: List[ScoringResult]) -> ScoringResult:
+    def aggregate(self, scoring_results: List[ScoringResultRow]) -> Dict[str, Any]:
        raise NotImplementedError()
-    def score(self, input_rows: List[Dict[str, Any]]) -> List[ScoringResult]:
+    def score(self, input_rows: List[Dict[str, Any]]) -> List[ScoringResultRow]:
        return [self.score_row(input_row) for input_row in input_rows]
--- a/llama_stack/providers/impls/meta_reference/scoring/scorer/equality_scorer.py
+++ b/llama_stack/providers/impls/meta_reference/scoring/scorer/equality_scorer.py
@ -24,7 +24,7 @@ class EqualityScorer(BaseScorer):
        return_type=NumberType(),
    )
-    def score_row(self, input_row: Dict[str, Any]) -> ScoringResult:
+    def score_row(self, input_row: Dict[str, Any]) -> ScoringResultRow:
        assert "expected_answer" in input_row, "Expected answer not found in input row."
        assert (
            "generated_answer" in input_row
@ -37,7 +37,7 @@ class EqualityScorer(BaseScorer):
            "score": score,
        }
-    def aggregate(self, scoring_results: List[ScoringResult]) -> ScoringResult:
+    def aggregate(self, scoring_results: List[ScoringResultRow]) -> Dict[str, Any]:
        assert len(scoring_results) > 0, "Empty scoring results provided."
        num_correct = sum(result["score"] for result in scoring_results)
        avg_score = num_correct / len(scoring_results)
--- a/llama_stack/providers/impls/meta_reference/scoring/scoring.py
+++ b/llama_stack/providers/impls/meta_reference/scoring/scoring.py
@ -103,7 +103,10 @@ class MetaReferenceScoringImpl(Scoring, ScoringFunctionsProtocolPrivate):
            scorer = SCORER_REGISTRY[scoring_fn_id]()
            score_results = scorer.score(input_rows)
            agg_results = scorer.aggregate(score_results)
-            res[scoring_fn_id] = agg_results
+            res[scoring_fn_id] = ScoringResult(
                score_rows=score_results,
                aggregated_results=agg_results,
            )
        return ScoreResponse(
            results=res,
--- a/llama_stack/providers/tests/scoring/test_scoring.py
+++ b/llama_stack/providers/tests/scoring/test_scoring.py
@ -66,3 +66,4 @@ async def test_scoring_score(scoring_settings):
    )
    assert len(response.results) == 1
    assert "equality" in response.results