aggregation function config

2025-12-20 06:28:43 +00:00 · 2024-12-10 16:16:38 -08:00 · 2024-12-10 16:16:38 -08:00 · 1077c521b1
commit 1077c521b1
parent fbc3888fd7
8 changed files with 79 additions and 28 deletions
--- a/llama_stack/providers/inline/scoring/basic/scoring.py
+++ b/llama_stack/providers/inline/scoring/basic/scoring.py
@ -113,7 +113,9 @@ class BasicScoringImpl(Scoring, ScoringFunctionsProtocolPrivate):
            score_results = await scoring_fn.score(
                input_rows, scoring_fn_id, scoring_fn_params
            )
-            agg_results = await scoring_fn.aggregate(score_results, scoring_fn_params)
+            agg_results = await scoring_fn.aggregate(
+                score_results, scoring_fn_id, scoring_fn_params
+            )
            res[scoring_fn_id] = ScoringResult(
                score_rows=score_results,
                aggregated_results=agg_results,
--- a/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
+++ b/llama_stack/providers/inline/scoring/basic/scoring_fn/equality_scoring_fn.py
@ -47,13 +47,18 @@ class EqualityScoringFn(BaseScoringFn):
    async def aggregate(
        self,
        scoring_results: List[ScoringResultRow],
+        scoring_fn_identifier: Optional[str] = None,
        scoring_params: Optional[ScoringFnParams] = None,
    ) -> Dict[str, Any]:
+        params = self.supported_fn_defs_registry[scoring_fn_identifier].params
+        if scoring_params is not None:
+            params = scoring_params
+
        aggregation_functions = [AggregationFunctionType.accuracy]
        if (
-            scoring_params
-            and hasattr(scoring_params, "aggregation_functions")
-            and scoring_params.aggregation_functions
+            params
+            and hasattr(params, "aggregation_functions")
+            and params.aggregation_functions
        ):
-            aggregation_functions.extend(scoring_params.aggregation_functions)
+            aggregation_functions.extend(params.aggregation_functions)
        return aggregate_metrics(scoring_results, aggregation_functions)
--- a/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
+++ b/llama_stack/providers/inline/scoring/basic/scoring_fn/regex_parser_scoring_fn.py
@ -69,13 +69,18 @@ class RegexParserScoringFn(BaseScoringFn):
    async def aggregate(
        self,
        scoring_results: List[ScoringResultRow],
+        scoring_fn_identifier: Optional[str] = None,
        scoring_params: Optional[ScoringFnParams] = None,
    ) -> Dict[str, Any]:
+        params = self.supported_fn_defs_registry[scoring_fn_identifier].params
+        if scoring_params is not None:
+            params = scoring_params
+
        aggregation_functions = [AggregationFunctionType.accuracy]
        if (
-            scoring_params
-            and hasattr(scoring_params, "aggregation_functions")
-            and scoring_params.aggregation_functions
+            params
+            and hasattr(params, "aggregation_functions")
+            and params.aggregation_functions
        ):
-            aggregation_functions.extend(scoring_params.aggregation_functions)
+            aggregation_functions.extend(params.aggregation_functions)
        return aggregate_metrics(scoring_results, aggregation_functions)
--- a/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
+++ b/llama_stack/providers/inline/scoring/basic/scoring_fn/subset_of_scoring_fn.py
@ -41,13 +41,18 @@ class SubsetOfScoringFn(BaseScoringFn):
    async def aggregate(
        self,
        scoring_results: List[ScoringResultRow],
+        scoring_fn_identifier: Optional[str] = None,
        scoring_params: Optional[ScoringFnParams] = None,
    ) -> Dict[str, Any]:
+        params = self.supported_fn_defs_registry[scoring_fn_identifier].params
+        if scoring_params is not None:
+            params = scoring_params
+
        aggregation_functions = [AggregationFunctionType.accuracy]
        if (
-            scoring_params
-            and hasattr(scoring_params, "aggregation_functions")
-            and scoring_params.aggregation_functions
+            params
+            and hasattr(params, "aggregation_functions")
+            and params.aggregation_functions
        ):
-            aggregation_functions.extend(scoring_params.aggregation_functions)
+            aggregation_functions.extend(params.aggregation_functions)
        return aggregate_metrics(scoring_results, aggregation_functions)
--- a/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
+++ b/llama_stack/providers/inline/scoring/llm_as_judge/scoring.py
@ -120,7 +120,9 @@ class LlmAsJudgeScoringImpl(Scoring, ScoringFunctionsProtocolPrivate):
            score_results = await scoring_fn.score(
                input_rows, scoring_fn_id, scoring_fn_params
            )
-            agg_results = await scoring_fn.aggregate(score_results, scoring_fn_params)
+            agg_results = await scoring_fn.aggregate(
+                score_results, scoring_fn_id, scoring_fn_params
+            )
            res[scoring_fn_id] = ScoringResult(
                score_rows=score_results,
                aggregated_results=agg_results,
--- a/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
+++ b/llama_stack/providers/inline/scoring/llm_as_judge/scoring_fn/llm_as_judge_scoring_fn.py
@ -3,13 +3,18 @@
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
+import re
+
+from typing import Any, Dict, List, Optional
+
 from llama_stack.apis.inference.inference import Inference

+from llama_stack.apis.scoring import ScoringResultRow
+from llama_stack.apis.scoring_functions import ScoringFnParams
+
+from llama_stack.providers.utils.scoring.aggregation_utils import aggregate_metrics
+
 from llama_stack.providers.utils.scoring.base_scoring_fn import BaseScoringFn
-from llama_stack.apis.scoring_functions import *  # noqa: F401, F403
-from llama_stack.apis.scoring import *  # noqa: F401, F403
-from llama_stack.apis.common.type_system import *  # noqa: F403
-import re

 from .fn_defs.llm_as_judge_405b_simpleqa import llm_as_judge_405b_simpleqa

@ -89,8 +94,18 @@ class LlmAsJudgeScoringFn(BaseScoringFn):
    async def aggregate(
        self,
        scoring_results: List[ScoringResultRow],
+        scoring_fn_identifier: Optional[str] = None,
        scoring_params: Optional[ScoringFnParams] = None,
    ) -> Dict[str, Any]:
-        print(f"scoring_params: {scoring_params}")
-        # TODO: this needs to be config based aggregation, and only useful w/ Jobs API
-        return {}
+        params = self.supported_fn_defs_registry[scoring_fn_identifier].params
+        if scoring_params is not None:
+            params = scoring_params
+
+        aggregation_functions = []
+        if (
+            params
+            and hasattr(params, "aggregation_functions")
+            and params.aggregation_functions
+        ):
+            aggregation_functions.extend(params.aggregation_functions)
+        return aggregate_metrics(scoring_results, aggregation_functions)