litellm/cookbook/benchmark/eval_suites_mlflow_autoevals/auto_evals.py

import sys, os
import traceback
from dotenv import load_dotenv

load_dotenv()

import litellm
from litellm import embedding, completion, completion_cost

from autoevals.llm import *

###################
import litellm

# litellm completion call
question = "which country has the highest population"
response = litellm.completion(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": question}],
)
print(response)
# use the auto eval Factuality() evaluator

print("calling evaluator")
evaluator = Factuality()
result = evaluator(
    output=response.choices[0]["message"][
        "content"
    ],  # response from litellm.completion()
    expected="India",  # expected output
    input=question,  # question passed to litellm.completion
)

print(result)