merge

2025-12-17 09:12:37 +00:00 · 2024-11-07 21:27:08 -08:00 · 2024-11-07 21:27:08 -08:00 · 0443b36cc1
commit 0443b36cc1
parent 4ae1d37c2f 6192bf43a4
9 changed files with 58 additions and 44 deletions
--- a/llama_stack/providers/tests/eval/fixtures.py
+++ b/llama_stack/providers/tests/eval/fixtures.py
@ -52,11 +52,4 @@ async def eval_stack(request):
        provider_data,
    )

-    return (
-        impls[Api.eval],
-        impls[Api.eval_tasks],
-        impls[Api.scoring],
-        impls[Api.scoring_functions],
-        impls[Api.datasetio],
-        impls[Api.datasets],
-    )
+    return impls
--- a/llama_stack/providers/tests/eval/provider_config_example.yaml
+++ b/llama_stack/providers/tests/eval/provider_config_example.yaml
@ -1,22 +0,0 @@
-providers:
-  datasetio:
-  - provider_id: test-meta
-    provider_type: meta-reference
-    config: {}
-  scoring:
-    - provider_id: test-meta
-      provider_type: meta-reference
-      config: {}
-  eval:
-    - provider_id: test-meta
-      provider_type: meta-reference
-      config: {}
-  inference:
-    - provider_id: test-tgi
-      provider_type: remote::tgi
-      config:
-        url: http://127.0.0.1:5009
-    - provider_id: test-tgi-2
-      provider_type: remote::tgi
-      config:
-        url: http://127.0.0.1:5010
--- a/llama_stack/providers/tests/eval/test_eval.py
+++ b/llama_stack/providers/tests/eval/test_eval.py
@ -30,19 +30,23 @@ class Testeval:
    async def test_eval_tasks_list(self, eval_stack):
        # NOTE: this needs you to ensure that you are starting from a clean state
        # but so far we don't have an unregister API unfortunately, so be careful
-        _, eval_tasks_impl, _, _, _, _ = eval_stack
+        eval_tasks_impl = eval_stack[Api.eval_tasks]
        response = await eval_tasks_impl.list_eval_tasks()
        assert isinstance(response, list)

    @pytest.mark.asyncio
    async def test_eval_evaluate_rows(self, eval_stack):
-        eval_impl, eval_tasks_impl, _, _, datasetio_impl, datasets_impl = eval_stack
+        eval_impl, eval_tasks_impl, datasetio_impl, datasets_impl = (
+            eval_stack[Api.eval],
+            eval_stack[Api.eval_tasks],
+            eval_stack[Api.datasetio],
+            eval_stack[Api.datasets],
+        )
        await register_dataset(
            datasets_impl, for_generation=True, dataset_id="test_dataset_for_eval"
        )
-
        response = await datasets_impl.list_datasets()
-        assert len(response) >= 1
+        assert len(response) == 1
        rows = await datasetio_impl.get_rows_paginated(
            dataset_id="test_dataset_for_eval",
            rows_in_page=3,
@ -79,7 +83,11 @@ class Testeval:

    @pytest.mark.asyncio
    async def test_eval_run_eval(self, eval_stack):
-        eval_impl, eval_tasks_impl, _, _, datasetio_impl, datasets_impl = eval_stack
+        eval_impl, eval_tasks_impl, datasets_impl = (
+            eval_stack[Api.eval],
+            eval_stack[Api.eval_tasks],
+            eval_stack[Api.datasets],
+        )
        await register_dataset(
            datasets_impl, for_generation=True, dataset_id="test_dataset_for_eval"
        )