docs rate limits per model per api key

2024-08-17 14:50:15 -07:00 · 2024-08-17 14:50:15 -07:00 · 671663abe6
commit 671663abe6
parent be37310e94
1 changed files with 56 additions and 0 deletions
--- a/docs/my-website/docs/proxy/users.md
+++ b/docs/my-website/docs/proxy/users.md
@ -484,6 +484,8 @@ You can set:
 - tpm limits (tokens per minute)
 - rpm limits (requests per minute)
 - max parallel requests
 - rpm / tpm limits per model for a given key
 <Tabs>
 <TabItem value="per-user" label="Per Internal User">
@ -532,6 +534,60 @@ curl --location 'http://0.0.0.0:4000/key/generate' \
 }
 ```
 </TabItem>
 <TabItem value="per-key-model" label="Per API Key Per model">
 **Set rate limits per model per api key**
 Set `model_rpm_limit` and `model_tpm_limit` to set rate limits per model per api key
 Here `gpt-4` is the `model_name` set on the [litellm config.yaml](configs.md)
 ```shell
 curl --location 'http://0.0.0.0:4000/key/generate' \
 --header 'Authorization: Bearer sk-1234' \
 --header 'Content-Type: application/json' \
 --data '{"model_rpm_limit": {"gpt-4": 2}, "model_tpm_limit": {"gpt-4":}}' 
 ```
 **Expected Response**
 ```json
 {
    "key": "sk-ulGNRXWtv7M0lFnnsQk0wQ",
    "expires": "2024-01-18T20:48:44.297973",
 }
 ```
 **Verify Model Rate Limits set correctly for this key**
 **Make /chat/completions request check if `x-litellm-key-remaining-requests-gpt-4` returned**
 ```shell
 curl -i http://localhost:4000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-ulGNRXWtv7M0lFnnsQk0wQ" \
  -d '{
    "model": "gpt-4",
    "messages": [
      {"role": "user", "content": "Hello, Claude!ss eho ares"}
    ]
  }'
 ```
 **Expected headers**
 ```shell
 x-litellm-key-remaining-requests-gpt-4: 1
 x-litellm-key-remaining-tokens-gpt-4: 179
 ```
 These headers indicate:
 - 1 request remaining for the GPT-4 model for key=`sk-ulGNRXWtv7M0lFnnsQk0wQ`
 - 179 tokens remaining for the GPT-4 model for key=`sk-ulGNRXWtv7M0lFnnsQk0wQ`
 </TabItem>
 <TabItem value="per-end-user" label="For customers">