rag correctness scorer w/ custom dataset

2025-12-11 11:50:41 +00:00 · 2024-10-15 00:42:03 -07:00 · 2024-10-15 00:42:03 -07:00 · 9cc0a54f0b
commit 9cc0a54f0b
parent ec6c63ba57
4 changed files with 18 additions and 4 deletions
--- a/llama_stack/apis/datasets/datasets.py
+++ b/llama_stack/apis/datasets/datasets.py
@ -103,6 +103,7 @@ class HuggingfaceDatasetDef(BaseModel):
    )
    rename_columns_map: Optional[Dict[str, str]] = Field(
        description="A map of column names to rename to fit the schema of eval dataset for scoring",
        default=None,
    )
    kwargs: Dict[str, Any] = Field(
        description="Any additional arguments to get Huggingface (e.g. split, trust_remote_code)",
@ -119,6 +120,10 @@ class CustomDatasetDef(BaseModel):
    url: str = Field(
        description="The URL to the dataset",
    )
    rename_columns_map: Optional[Dict[str, str]] = Field(
        description="A map of column names to rename to fit the schema of eval dataset for scoring",
        default=None,
    )
 DatasetDef = Annotated[
--- a/llama_stack/apis/evals/client.py
+++ b/llama_stack/apis/evals/client.py
@ -136,6 +136,9 @@ async def run_main(host: str, port: int, eval_dataset_path: str = ""):
        dataset_def=CustomDatasetDef(
            identifier="rag-evals",
            url=data_url_from_file(eval_dataset_path),
            rename_columns_map={
                "query": "input_query",
            },
        )
    )
    cprint(response, "cyan")
@ -150,6 +153,9 @@ async def run_main(host: str, port: int, eval_dataset_path: str = ""):
        eval_scoring_config=EvaluateScoringConfig(
            scorer_config_list=[
                EvaluateSingleScorerConfig(scorer_name="accuracy"),
                EvaluateSingleScorerConfig(
                    scorer_name="braintrust::answer-correctness"
                ),
            ]
        ),
    )
--- a/llama_stack/distribution/registry/datasets/dataset_wrappers.py
+++ b/llama_stack/distribution/registry/datasets/dataset_wrappers.py
@ -70,6 +70,9 @@ class CustomDataset(BaseDataset[DictSample]):
            df = df.sample(n=n_samples)
        self.dataset = Dataset.from_pandas(df)
        if self.config.rename_columns_map:
            for k, v in self.config.rename_columns_map.items():
                self.dataset = self.dataset.rename_column(k, v)
 class HuggingfaceDataset(BaseDataset[DictSample]):
--- a/llama_stack/providers/impls/meta_reference/evals/scorer/braintrust_scorer.py
+++ b/llama_stack/providers/impls/meta_reference/evals/scorer/braintrust_scorer.py
@ -14,11 +14,11 @@ from autoevals.ragas import *  # noqa: F403
 class BraintrustFactualityScorer(BaseScorer[ScorerInputSample]):
    def score_sample(self, scorer_input_sample: ScorerInputSample) -> SingleEvalResult:
        input_query = scorer_input_sample.input_query
-        extracted_answer = scorer_input_sample.generated_answer
+        generated_answer = scorer_input_sample.generated_answer
        expected_answer = scorer_input_sample.expected_answer
        evaluator = Factuality()
-        result = evaluator(output, expected, input=input_query)
+        result = evaluator(generated_answer, expected_answer, input=input_query)
        factuality = result.score
        return SingleEvalResult(score_data={"factuality": factuality})
@ -37,11 +37,11 @@ class BraintrustFactualityScorer(BaseScorer[ScorerInputSample]):
 class BraintrustAnswerCorrectnessScorer(BaseScorer[ScorerInputSample]):
    def score_sample(self, scorer_input_sample: ScorerInputSample) -> SingleEvalResult:
        input_query = scorer_input_sample.input_query
-        extracted_answer = scorer_input_sample.generated_answer
+        generated_answer = scorer_input_sample.generated_answer
        expected_answer = scorer_input_sample.expected_answer
        evaluator = AnswerCorrectness()
-        result = evaluator(output, expected, input=input_query)
+        result = evaluator(generated_answer, expected_answer, input=input_query)
        correctness = result.score
        return SingleEvalResult(score_data={"answer_correctness": correctness})