Provider Budget Routing - Get Budget, Spend Details (#7063)

* add async_get_ttl to dual cache * add ProviderBudgetResponse * add provider_budgets * test_redis_get_ttl * _init_or_get_provider_budget_in_cache * test_init_or_get_provider_budget_in_cache * use _init_provider_budget_in_cache * test_get_current_provider_budget_reset_at * doc Get Budget, Spend Details * doc Provider Budget Routing
2025-04-27 11:43:54 +00:00 · 2024-12-06 21:14:12 -08:00 · 2024-12-06 21:14:12 -08:00 · 87ca62943b
commit 87ca62943b
parent aaa4d4178a
11 changed files with 444 additions and 1 deletions
--- a/docs/my-website/docs/proxy/provider_budget_routing.md
+++ b/docs/my-website/docs/proxy/provider_budget_routing.md
@ -126,6 +126,53 @@ Expected response on failure
 ## Monitoring Provider Remaining Budget
 ### Get Budget, Spend Details
 Use this endpoint to check current budget, spend and budget reset time for a provider
 Example Request
 ```bash
 curl -X GET http://localhost:4000/provider/budgets \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-1234"
 ```
 Example Response
 ```json
 {
    "providers": {
        "openai": {
            "budget_limit": 1e-12,
            "time_period": "1d",
            "spend": 0.0,
            "budget_reset_at": null
        },
        "azure": {
            "budget_limit": 100.0,
            "time_period": "1d",
            "spend": 0.0,
            "budget_reset_at": null
        },
        "anthropic": {
            "budget_limit": 100.0,
            "time_period": "10d",
            "spend": 0.0,
            "budget_reset_at": null
        },
        "vertex_ai": {
            "budget_limit": 100.0,
            "time_period": "12d",
            "spend": 0.0,
            "budget_reset_at": null
        }
    }
 }
 ```
 ### Prometheus Metric
 LiteLLM will emit the following metric on Prometheus to track the remaining budget for each provider
 This metric indicates the remaining budget for a provider in dollars (USD)
--- a/litellm/caching/dual_cache.py
+++ b/litellm/caching/dual_cache.py
@ -423,3 +423,12 @@ class DualCache(BaseCache):
            self.in_memory_cache.delete_cache(key)
        if self.redis_cache is not None:
            await self.redis_cache.async_delete_cache(key)
    async def async_get_ttl(self, key: str) -> Optional[int]:
        """
        Get the remaining TTL of a key in in-memory cache or redis
        """
        ttl = await self.in_memory_cache.async_get_ttl(key)
        if ttl is None and self.redis_cache is not None:
            ttl = await self.redis_cache.async_get_ttl(key)
        return ttl
--- a/litellm/caching/in_memory_cache.py
+++ b/litellm/caching/in_memory_cache.py
@ -145,3 +145,9 @@ class InMemoryCache(BaseCache):
    def delete_cache(self, key):
        self.cache_dict.pop(key, None)
        self.ttl_dict.pop(key, None)
    async def async_get_ttl(self, key: str) -> Optional[int]:
        """
        Get the remaining TTL of a key in in-memory cache
        """
        return self.ttl_dict.get(key, None)
--- a/litellm/caching/redis_cache.py
+++ b/litellm/caching/redis_cache.py
@ -980,3 +980,26 @@ class RedisCache(BaseCache):
                str(e),
            )
            raise e
    async def async_get_ttl(self, key: str) -> Optional[int]:
        """
        Get the remaining TTL of a key in Redis
        Args:
            key (str): The key to get TTL for
        Returns:
            Optional[int]: The remaining TTL in seconds, or None if key doesn't exist
        Redis ref: https://redis.io/docs/latest/commands/ttl/
        """
        try:
            _redis_client = await self.init_async_client()
            async with _redis_client as redis_client:
                ttl = await redis_client.ttl(key)
                if ttl <= -1:  # -1 means the key does not exist, -2 key does not exist
                    return None
                return ttl
        except Exception as e:
            verbose_logger.debug(f"Redis TTL Error: {e}")
            return None
--- a/litellm/proxy/_types.py
+++ b/litellm/proxy/_types.py
@ -2193,3 +2193,25 @@ LiteLLM_ManagementEndpoint_MetadataFields = [
    "tags",
    "enforced_params",
 ]
 class ProviderBudgetResponseObject(LiteLLMBase):
    """
    Configuration for a single provider's budget settings
    """
    budget_limit: float  # Budget limit in USD for the time period
    time_period: str  # Time period for budget (e.g., '1d', '30d', '1mo')
    spend: float = 0.0  # Current spend for this provider
    budget_reset_at: Optional[str] = None  # When the current budget period resets
 class ProviderBudgetResponse(LiteLLMBase):
    """
    Complete provider budget configuration and status.
    Maps provider names to their budget configs.
    """
    providers: Dict[str, ProviderBudgetResponseObject] = (
        {}
    )  # Dictionary mapping provider names to their budget configurations
--- a/litellm/proxy/proxy_config.yaml
+++ b/litellm/proxy/proxy_config.yaml
@ -12,3 +12,27 @@ model_list:
 litellm_settings:
  callbacks: ["datadog"] 
 router_settings:
  provider_budget_config: 
    openai: 
      budget_limit: 0.000000000001 # float of $ value budget for time period
      time_period: 1d # can be 1d, 2d, 30d, 1mo, 2mo
    azure:
      budget_limit: 100
      time_period: 1d
    anthropic:
      budget_limit: 100
      time_period: 10d
    vertex_ai:
      budget_limit: 100
      time_period: 12d
    gemini:
      budget_limit: 100
      time_period: 12d
  # OPTIONAL: Set Redis Host, Port, and Password if using multiple instance of LiteLLM
  redis_host: os.environ/REDIS_HOST
  redis_port: os.environ/REDIS_PORT
  redis_password: os.environ/REDIS_PASSWORD
--- a/litellm/proxy/spend_tracking/spend_management_endpoints.py
+++ b/litellm/proxy/spend_tracking/spend_management_endpoints.py
@ -8,10 +8,12 @@ from fastapi import APIRouter, Depends, Header, HTTPException, Request, status
 import litellm
 from litellm._logging import verbose_proxy_logger
 from litellm.proxy._types import *
 from litellm.proxy._types import ProviderBudgetResponse, ProviderBudgetResponseObject
 from litellm.proxy.auth.user_api_key_auth import user_api_key_auth
 from litellm.proxy.spend_tracking.spend_tracking_utils import (
    get_spend_by_team_and_customer,
 )
 from litellm.proxy.utils import handle_exception_on_proxy
 router = APIRouter()
@ -2464,3 +2466,92 @@ async def global_predict_spend_logs(request: Request):
    data = await request.json()
    data = data.get("data")
    return _forecast_daily_cost(data)
@router.get("/provider/budgets", response_model=ProviderBudgetResponse)
 async def provider_budgets() -> ProviderBudgetResponse:
    """
    Provider Budget Routing - Get Budget, Spend Details https://docs.litellm.ai/docs/proxy/provider_budget_routing
    Use this endpoint to check current budget, spend and budget reset time for a provider
    Example Request
    ```bash
    curl -X GET http://localhost:4000/provider/budgets \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer sk-1234"
    ```
    Example Response
    ```json
    {
        "providers": {
            "openai": {
                "budget_limit": 1e-12,
                "time_period": "1d",
                "spend": 0.0,
                "budget_reset_at": null
            },
            "azure": {
                "budget_limit": 100.0,
                "time_period": "1d",
                "spend": 0.0,
                "budget_reset_at": null
            },
            "anthropic": {
                "budget_limit": 100.0,
                "time_period": "10d",
                "spend": 0.0,
                "budget_reset_at": null
            },
            "vertex_ai": {
                "budget_limit": 100.0,
                "time_period": "12d",
                "spend": 0.0,
                "budget_reset_at": null
            }
        }
    }
    ```
    """
    from litellm.proxy.proxy_server import llm_router
    try:
        if llm_router is None:
            raise HTTPException(
                status_code=500, detail={"error": "No llm_router found"}
            )
        provider_budget_config = llm_router.provider_budget_config
        if provider_budget_config is None:
            raise ValueError(
                "No provider budget config found. Please set a provider budget config in the router settings. https://docs.litellm.ai/docs/proxy/provider_budget_routing"
            )
        provider_budget_response_dict: Dict[str, ProviderBudgetResponseObject] = {}
        for _provider, _budget_info in provider_budget_config.items():
            _provider_spend = (
                await llm_router.provider_budget_logger._get_current_provider_spend(
                    _provider
                )
                or 0.0
            )
            _provider_budget_ttl = await llm_router.provider_budget_logger._get_current_provider_budget_reset_at(
                _provider
            )
            provider_budget_response_object = ProviderBudgetResponseObject(
                budget_limit=_budget_info.budget_limit,
                time_period=_budget_info.time_period,
                spend=_provider_spend,
                budget_reset_at=_provider_budget_ttl,
            )
            provider_budget_response_dict[_provider] = provider_budget_response_object
        return ProviderBudgetResponse(providers=provider_budget_response_dict)
    except Exception as e:
        verbose_proxy_logger.exception(
            "/provider/budgets: Exception occured - {}".format(str(e))
        )
        raise handle_exception_on_proxy(e)
--- a/litellm/router_strategy/provider_budgets.py
+++ b/litellm/router_strategy/provider_budgets.py
@ -19,7 +19,7 @@ anthropic:
 """
 import asyncio
-from datetime import datetime, timezone
+from datetime import datetime, timedelta, timezone
 from typing import TYPE_CHECKING, Any, Dict, List, Optional, TypedDict, Union
 import litellm
@ -68,6 +68,12 @@ class ProviderBudgetLimiting(CustomLogger):
                    budget_limit=config.get("budget_limit"),
                    time_period=config.get("time_period"),
                )
            asyncio.create_task(
                self._init_provider_budget_in_cache(
                    provider=provider,
                    budget_config=provider_budget_config[provider],
                )
            )
        self.provider_budget_config: ProviderBudgetConfigType = provider_budget_config
        verbose_router_logger.debug(
@ -450,3 +456,74 @@ class ProviderBudgetLimiting(CustomLogger):
                spend=spend,
                budget_limit=budget_limit,
            )
    async def _get_current_provider_spend(self, provider: str) -> Optional[float]:
        """
        GET the current spend for a provider from cache
        used for GET /provider/budgets endpoint in spend_management_endpoints.py
        Args:
            provider (str): The provider to get spend for (e.g., "openai", "anthropic")
        Returns:
            Optional[float]: The current spend for the provider, or None if not found
        """
        budget_config = self._get_budget_config_for_provider(provider)
        if budget_config is None:
            return None
        spend_key = f"provider_spend:{provider}:{budget_config.time_period}"
        if self.router_cache.redis_cache:
            # use Redis as source of truth since that has spend across all instances
            current_spend = await self.router_cache.redis_cache.async_get_cache(
                spend_key
            )
        else:
            # use in-memory cache if Redis is not initialized
            current_spend = await self.router_cache.async_get_cache(spend_key)
        return float(current_spend) if current_spend is not None else 0.0
    async def _get_current_provider_budget_reset_at(
        self, provider: str
    ) -> Optional[str]:
        budget_config = self._get_budget_config_for_provider(provider)
        if budget_config is None:
            return None
        spend_key = f"provider_spend:{provider}:{budget_config.time_period}"
        if self.router_cache.redis_cache:
            ttl_seconds = await self.router_cache.redis_cache.async_get_ttl(spend_key)
        else:
            ttl_seconds = await self.router_cache.async_get_ttl(spend_key)
        if ttl_seconds is None:
            return None
        return (datetime.now(timezone.utc) + timedelta(seconds=ttl_seconds)).isoformat()
    async def _init_provider_budget_in_cache(
        self, provider: str, budget_config: ProviderBudgetInfo
    ):
        """
        Initialize provider budget in cache by storing the following keys if they don't exist:
        - provider_spend:{provider}:{budget_config.time_period} - stores the current spend
        - provider_budget_start_time:{provider} - stores the start time of the budget window
        """
        spend_key = f"provider_spend:{provider}:{budget_config.time_period}"
        start_time_key = f"provider_budget_start_time:{provider}"
        ttl_seconds = duration_in_seconds(budget_config.time_period)
        budget_start = await self.router_cache.async_get_cache(start_time_key)
        if budget_start is None:
            budget_start = datetime.now(timezone.utc).timestamp()
            await self.router_cache.async_set_cache(
                key=start_time_key, value=budget_start, ttl=ttl_seconds
            )
        _spend_key = await self.router_cache.async_get_cache(spend_key)
        if _spend_key is None:
            await self.router_cache.async_set_cache(
                key=spend_key, value=0.0, ttl=ttl_seconds
            )
--- a/litellm/types/router.py
+++ b/litellm/types/router.py
@ -646,3 +646,12 @@ ProviderBudgetConfigType = Dict[str, ProviderBudgetInfo]
 class RouterCacheEnum(enum.Enum):
    TPM = "global_router:{id}:{model}:tpm:{current_minute}"
    RPM = "global_router:{id}:{model}:rpm:{current_minute}"
 class ProviderBudgetWindowDetails(BaseModel):
    """Details about a provider's budget window"""
    budget_start: float
    spend_key: str
    start_time_key: str
    ttl_seconds: int
--- a/tests/local_testing/test_caching.py
+++ b/tests/local_testing/test_caching.py
@ -2478,3 +2478,51 @@ async def test_redis_increment_pipeline():
    except Exception as e:
        print(f"Error occurred: {str(e)}")
        raise e
@pytest.mark.asyncio
 async def test_redis_get_ttl():
    """
    Test Redis get TTL functionality
    Redis returns -2 if the key does not exist and -1 if the key exists but has no associated expire.
    test that litellm redis caching wrapper handles -1 and -2 values and returns them as None
    """
    try:
        from litellm.caching.redis_cache import RedisCache
        redis_cache = RedisCache(
            host=os.environ["REDIS_HOST"],
            port=os.environ["REDIS_PORT"],
            password=os.environ["REDIS_PASSWORD"],
        )
        # Test case 1: Key does not exist
        result = await redis_cache.async_get_ttl("nonexistent_key")
        print("ttl for nonexistent key: ", result)
        assert result is None, f"Expected None for nonexistent key, got {result}"
        # Test case 2: Key exists with TTL
        test_key = "test_key_ttl"
        test_value = "test_value"
        ttl = 10  # 10 seconds TTL
        # Set a key with TTL
        _redis_client = await redis_cache.init_async_client()
        async with _redis_client as redis_client:
            await redis_client.set(test_key, test_value, ex=ttl)
            # Get TTL and verify it's close to what we set
            result = await redis_cache.async_get_ttl(test_key)
            print("ttl for test_key: ", result)
            assert (
                result is not None and 0 <= result <= ttl
            ), f"Expected TTL between 0 and {ttl}, got {result}"
            # Clean up
            await redis_client.delete(test_key)
    except Exception as e:
        print(f"Error occurred: {str(e)}")
        raise e
--- a/tests/local_testing/test_router_provider_budgets.py
+++ b/tests/local_testing/test_router_provider_budgets.py
@ -21,6 +21,7 @@ from litellm.caching.caching import DualCache, RedisCache
 import logging
 from litellm._logging import verbose_router_logger
 import litellm
 from datetime import timezone, timedelta
 verbose_router_logger.setLevel(logging.DEBUG)
@ -476,3 +477,89 @@ async def test_sync_in_memory_spend_with_redis():
    assert float(openai_spend) == 50.0
    assert float(anthropic_spend) == 75.0
@pytest.mark.asyncio
 async def test_get_current_provider_spend():
    """
    Test _get_current_provider_spend helper method
    Scenarios:
    1. Provider with no budget config returns None
    2. Provider with budget config but no spend returns 0.0
    3. Provider with budget config and spend returns correct value
    """
    cleanup_redis()
    provider_budget = ProviderBudgetLimiting(
        router_cache=DualCache(),
        provider_budget_config={
            "openai": ProviderBudgetInfo(time_period="1d", budget_limit=100),
        },
    )
    # Test provider with no budget config
    spend = await provider_budget._get_current_provider_spend("anthropic")
    assert spend is None
    # Test provider with budget config but no spend
    spend = await provider_budget._get_current_provider_spend("openai")
    assert spend == 0.0
    # Test provider with budget config and spend
    spend_key = "provider_spend:openai:1d"
    await provider_budget.router_cache.async_set_cache(key=spend_key, value=50.5)
    spend = await provider_budget._get_current_provider_spend("openai")
    assert spend == 50.5
@pytest.mark.asyncio
 async def test_get_current_provider_budget_reset_at():
    """
    Test _get_current_provider_budget_reset_at helper method
    Scenarios:
    1. Provider with no budget config returns None
    2. Provider with budget config but no TTL returns None
    3. Provider with budget config and TTL returns correct ISO timestamp
    """
    cleanup_redis()
    provider_budget = ProviderBudgetLimiting(
        router_cache=DualCache(
            redis_cache=RedisCache(
                host=os.getenv("REDIS_HOST"),
                port=int(os.getenv("REDIS_PORT")),
                password=os.getenv("REDIS_PASSWORD"),
            )
        ),
        provider_budget_config={
            "openai": ProviderBudgetInfo(time_period="1d", budget_limit=100),
            "vertex_ai": ProviderBudgetInfo(time_period="1h", budget_limit=100),
        },
    )
    await asyncio.sleep(2)
    # Test provider with no budget config
    reset_at = await provider_budget._get_current_provider_budget_reset_at("anthropic")
    assert reset_at is None
    # Test provider with budget config but no TTL
    reset_at = await provider_budget._get_current_provider_budget_reset_at("openai")
    assert reset_at is not None
    reset_time = datetime.fromisoformat(reset_at.replace("Z", "+00:00"))
    expected_time = datetime.now(timezone.utc) + timedelta(seconds=(24 * 60 * 60))
    time_difference = abs((reset_time - expected_time).total_seconds())
    assert time_difference < 5
    # Test provider with budget config and TTL
    reset_at = await provider_budget._get_current_provider_budget_reset_at("vertex_ai")
    assert reset_at is not None
    # Verify the timestamp format and approximate time
    reset_time = datetime.fromisoformat(reset_at.replace("Z", "+00:00"))
    expected_time = datetime.now(timezone.utc) + timedelta(seconds=3600)
    # Allow for small time differences (within 5 seconds)
    time_difference = abs((reset_time - expected_time).total_seconds())
    assert time_difference < 5