llama-stack

forked from phoenix-oss/llama-stack-mirror

History

Xi Yan ed833bb758 [Evals API][7/n] braintrust scoring provider (#333 ) * wip scoring refactor * llm as judge, move folders * test full generation + eval * extract score regex to llm context * remove prints, cleanup braintrust in this branch * braintrust skeleton * datasetio test fix * braintrust provider * remove prints * dependencies * change json -> class * json -> class * remove initialize * address nits * check identifier prefix * braintrust scoring identifier check, rebase * udpate MANIFEST * manifest * remove braintrust scoring_fn * remove comments * tests * imports fix	2024-10-28 18:59:35 -07:00
..
scoring	[Evals API][7/n] braintrust scoring provider (#333 )	2024-10-28 18:59:35 -07:00

[Evals API][7/n] braintrust scoring provider (#333 )

* wip scoring refactor

* llm as judge, move folders

* test full generation + eval

* extract score regex to llm context

* remove prints, cleanup braintrust in this branch

* braintrust skeleton

* datasetio test fix

* braintrust provider

* remove prints

* dependencies

* change json -> class

* json -> class

* remove initialize

* address nits

* check identifier prefix

* braintrust scoring identifier check, rebase

* udpate MANIFEST

* manifest

* remove braintrust scoring_fn

* remove comments

* tests

* imports fix

2024-10-28 18:59:35 -07:00

scoring

[Evals API][7/n] braintrust scoring provider (#333 )

2024-10-28 18:59:35 -07:00