[Evals API][11/n] huggingface dataset provider + mmlu scoring fn (#392)

* wip * scoring fn api * eval api * eval task * evaluate api update * pre commit * unwrap context -> config * config field doc * typo * naming fix * separate benchmark / app eval * api name * rename * wip tests * wip * datasetio test * delete unused * fixture * scoring resolve * fix scoring register * scoring test pass * score batch * scoring fix * fix eval * test eval works * huggingface provider * datasetdef files * mmlu scoring fn * test wip * remove type ignore * api refactor * add default task_eval_id for routing * add eval_id for jobs * remove type ignore * huggingface provider * wip huggingface register * only keep 1 run_eval * fix optional * register task required * register task required * delete old tests * fix * mmlu loose * refactor * msg * fix tests * move benchmark task def to file * msg * gen openapi * openapi gen * move dataset to hf llamastack repo * remove todo * refactor * add register model to unit test * rename * register to client * delete preregistered dataset/eval task * comments * huggingface -> remote adapter * openapi gen
2025-12-05 02:17:31 +00:00 · 2024-11-11 14:49:50 -05:00 · 2024-11-11 14:49:50 -05:00 · 2b7d70ba86
commit 2b7d70ba86
parent b78ee3a0a5
20 changed files with 1607 additions and 718 deletions
--- a/llama_stack/providers/tests/eval/conftest.py
+++ b/llama_stack/providers/tests/eval/conftest.py
@ -34,6 +34,16 @@ DEFAULT_PROVIDER_COMBINATIONS = [
        id="meta_reference_eval_together_inference",
        marks=pytest.mark.meta_reference_eval_together_inference,
    ),
+    pytest.param(
+        {
+            "eval": "meta_reference",
+            "scoring": "meta_reference",
+            "datasetio": "huggingface",
+            "inference": "together",
+        },
+        id="meta_reference_eval_together_inference_huggingface_datasetio",
+        marks=pytest.mark.meta_reference_eval_together_inference_huggingface_datasetio,
+    ),
 ]


@ -41,6 +51,7 @@ def pytest_configure(config):
    for fixture_name in [
        "meta_reference_eval_fireworks_inference",
        "meta_reference_eval_together_inference",
+        "meta_reference_eval_together_inference_huggingface_datasetio",
    ]:
        config.addinivalue_line(
            "markers",