refactor(provider_specific_params.md): create separate doc for provider-specific param

Make it easier for people to know, how litellm handles provider-specific params.
2024-07-09 12:23:42 -07:00 · 2024-07-09 12:23:42 -07:00 · ba334ff8b9
commit ba334ff8b9
parent 6bce7e73a3
3 changed files with 437 additions and 396 deletions
--- a/docs/my-website/docs/completion/input.md
+++ b/docs/my-website/docs/completion/input.md
@ -229,399 +229,3 @@ def completion(

 - `hf_model_name`: *string (optional)* - [Sagemaker Only] The corresponding huggingface name of the model, used to pull the right chat template for the model. 

-
-## Provider-specific Params
-Providers might offer params not supported by OpenAI (e.g. top_k). You can pass those in 2 ways: 
- via completion(): We'll pass the non-openai param, straight to the provider as part of the request body.
-    - e.g. `completion(model="claude-instant-1", top_k=3)`
- via provider-specific config variable (e.g. `litellm.OpenAIConfig()`). 
-
-<Tabs>
-<TabItem value="openai" label="OpenAI">
-
-```python
-import litellm, os
-
-# set env variables
-os.environ["OPENAI_API_KEY"] = "your-openai-key"
-
-## SET MAX TOKENS - via completion() 
-response_1 = litellm.completion(
-            model="gpt-3.5-turbo",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.OpenAIConfig(max_tokens=10)
-
-response_2 = litellm.completion(
-            model="gpt-3.5-turbo",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-<TabItem value="openai-text" label="OpenAI Text Completion">
-
-```python
-import litellm, os
-
-# set env variables
-os.environ["OPENAI_API_KEY"] = "your-openai-key"
-
-
-## SET MAX TOKENS - via completion() 
-response_1 = litellm.completion(
-            model="text-davinci-003",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.OpenAITextCompletionConfig(max_tokens=10)
-response_2 = litellm.completion(
-            model="text-davinci-003",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-<TabItem value="azure-openai" label="Azure OpenAI">
-
-```python
-import litellm, os
-
-# set env variables
-os.environ["AZURE_API_BASE"] = "your-azure-api-base"
-os.environ["AZURE_API_TYPE"] = "azure" # [OPTIONAL] 
-os.environ["AZURE_API_VERSION"] = "2023-07-01-preview" # [OPTIONAL]
-
-## SET MAX TOKENS - via completion() 
-response_1 = litellm.completion(
-            model="azure/chatgpt-v-2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.AzureOpenAIConfig(max_tokens=10)
-response_2 = litellm.completion(
-            model="azure/chatgpt-v-2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-<TabItem value="anthropic" label="Anthropic">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="claude-instant-1",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.AnthropicConfig(max_tokens_to_sample=200)
-response_2 = litellm.completion(
-            model="claude-instant-1",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="huggingface" label="Huggingface">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["HUGGINGFACE_API_KEY"] = "your-huggingface-key" #[OPTIONAL]
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="huggingface/mistralai/Mistral-7B-Instruct-v0.1",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            api_base="https://your-huggingface-api-endpoint",
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.HuggingfaceConfig(max_new_tokens=200)
-response_2 = litellm.completion(
-            model="huggingface/mistralai/Mistral-7B-Instruct-v0.1",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            api_base="https://your-huggingface-api-endpoint"
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="together_ai" label="TogetherAI">
-
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["TOGETHERAI_API_KEY"] = "your-togetherai-key" 
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="together_ai/togethercomputer/llama-2-70b-chat",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.TogetherAIConfig(max_tokens_to_sample=200)
-response_2 = litellm.completion(
-            model="together_ai/togethercomputer/llama-2-70b-chat",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="ollama" label="Ollama">
-
-```python
-import litellm, os 
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="ollama/llama2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.OllamConfig(num_predict=200)
-response_2 = litellm.completion(
-            model="ollama/llama2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="replicate" label="Replicate">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["REPLICATE_API_KEY"] = "your-replicate-key" 
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.ReplicateConfig(max_new_tokens=200)
-response_2 = litellm.completion(
-            model="replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="petals" label="Petals">
-
-
-```python
-import litellm
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="petals/petals-team/StableBeluga2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            api_base="https://chat.petals.dev/api/v1/generate",
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.PetalsConfig(max_new_tokens=10)
-response_2 = litellm.completion(
-            model="petals/petals-team/StableBeluga2",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            api_base="https://chat.petals.dev/api/v1/generate",
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="palm" label="Palm">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["PALM_API_KEY"] = "your-palm-key"  
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="palm/chat-bison",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.PalmConfig(maxOutputTokens=10)
-response_2 = litellm.completion(
-            model="palm/chat-bison",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-</TabItem>
-
-<TabItem value="ai21" label="AI21">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["AI21_API_KEY"] = "your-ai21-key"  
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="j2-mid",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.AI21Config(maxOutputTokens=10)
-response_2 = litellm.completion(
-            model="j2-mid",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-<TabItem value="cohere" label="Cohere">
-
-```python
-import litellm, os 
-
-# set env variables
-os.environ["COHERE_API_KEY"] = "your-cohere-key"   
-
-## SET MAX TOKENS - via completion()
-response_1 = litellm.completion(
-            model="command-nightly",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-            max_tokens=10
-        )
-
-response_1_text = response_1.choices[0].message.content
-
-## SET MAX TOKENS - via config
-litellm.CohereConfig(max_tokens=200)
-response_2 = litellm.completion(
-            model="command-nightly",
-            messages=[{ "content": "Hello, how are you?","role": "user"}],
-        )
-
-response_2_text = response_2.choices[0].message.content
-
-## TEST OUTPUT
-assert len(response_2_text) > len(response_1_text)
-```
-
-</TabItem>
-
-</Tabs>
-
-
-[**Check out the tutorial!**](../tutorials/provider_specific_params.md)
--- a/docs/my-website/docs/completion/provider_specific_params.md
+++ b/docs/my-website/docs/completion/provider_specific_params.md
@ -0,0 +1,436 @@
+import Tabs from '@theme/Tabs';
+import TabItem from '@theme/TabItem';
+
+# Provider-specific Params
+
+Providers might offer params not supported by OpenAI (e.g. top_k). LiteLLM treats any non-openai param, as a provider-specific param, and passes it to the provider in the request body, as a kwarg. [**See Reserved Params**](https://github.com/BerriAI/litellm/blob/aa2fd29e48245f360e771a8810a69376464b195e/litellm/main.py#L700)
+
+You can pass those in 2 ways: 
+- via completion(): We'll pass the non-openai param, straight to the provider as part of the request body.
+    - e.g. `completion(model="claude-instant-1", top_k=3)`
+- via provider-specific config variable (e.g. `litellm.OpenAIConfig()`). 
+
+## SDK Usage
+<Tabs>
+<TabItem value="openai" label="OpenAI">
+
+```python
+import litellm, os
+
+# set env variables
+os.environ["OPENAI_API_KEY"] = "your-openai-key"
+
+## SET MAX TOKENS - via completion() 
+response_1 = litellm.completion(
+            model="gpt-3.5-turbo",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.OpenAIConfig(max_tokens=10)
+
+response_2 = litellm.completion(
+            model="gpt-3.5-turbo",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+<TabItem value="openai-text" label="OpenAI Text Completion">
+
+```python
+import litellm, os
+
+# set env variables
+os.environ["OPENAI_API_KEY"] = "your-openai-key"
+
+
+## SET MAX TOKENS - via completion() 
+response_1 = litellm.completion(
+            model="text-davinci-003",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.OpenAITextCompletionConfig(max_tokens=10)
+response_2 = litellm.completion(
+            model="text-davinci-003",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+<TabItem value="azure-openai" label="Azure OpenAI">
+
+```python
+import litellm, os
+
+# set env variables
+os.environ["AZURE_API_BASE"] = "your-azure-api-base"
+os.environ["AZURE_API_TYPE"] = "azure" # [OPTIONAL] 
+os.environ["AZURE_API_VERSION"] = "2023-07-01-preview" # [OPTIONAL]
+
+## SET MAX TOKENS - via completion() 
+response_1 = litellm.completion(
+            model="azure/chatgpt-v-2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.AzureOpenAIConfig(max_tokens=10)
+response_2 = litellm.completion(
+            model="azure/chatgpt-v-2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+<TabItem value="anthropic" label="Anthropic">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="claude-instant-1",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.AnthropicConfig(max_tokens_to_sample=200)
+response_2 = litellm.completion(
+            model="claude-instant-1",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="huggingface" label="Huggingface">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["HUGGINGFACE_API_KEY"] = "your-huggingface-key" #[OPTIONAL]
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="huggingface/mistralai/Mistral-7B-Instruct-v0.1",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            api_base="https://your-huggingface-api-endpoint",
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.HuggingfaceConfig(max_new_tokens=200)
+response_2 = litellm.completion(
+            model="huggingface/mistralai/Mistral-7B-Instruct-v0.1",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            api_base="https://your-huggingface-api-endpoint"
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="together_ai" label="TogetherAI">
+
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["TOGETHERAI_API_KEY"] = "your-togetherai-key" 
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="together_ai/togethercomputer/llama-2-70b-chat",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.TogetherAIConfig(max_tokens_to_sample=200)
+response_2 = litellm.completion(
+            model="together_ai/togethercomputer/llama-2-70b-chat",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="ollama" label="Ollama">
+
+```python
+import litellm, os 
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="ollama/llama2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.OllamConfig(num_predict=200)
+response_2 = litellm.completion(
+            model="ollama/llama2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="replicate" label="Replicate">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["REPLICATE_API_KEY"] = "your-replicate-key" 
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.ReplicateConfig(max_new_tokens=200)
+response_2 = litellm.completion(
+            model="replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="petals" label="Petals">
+
+
+```python
+import litellm
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="petals/petals-team/StableBeluga2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            api_base="https://chat.petals.dev/api/v1/generate",
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.PetalsConfig(max_new_tokens=10)
+response_2 = litellm.completion(
+            model="petals/petals-team/StableBeluga2",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            api_base="https://chat.petals.dev/api/v1/generate",
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="palm" label="Palm">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["PALM_API_KEY"] = "your-palm-key"  
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="palm/chat-bison",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.PalmConfig(maxOutputTokens=10)
+response_2 = litellm.completion(
+            model="palm/chat-bison",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+</TabItem>
+
+<TabItem value="ai21" label="AI21">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["AI21_API_KEY"] = "your-ai21-key"  
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="j2-mid",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.AI21Config(maxOutputTokens=10)
+response_2 = litellm.completion(
+            model="j2-mid",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+<TabItem value="cohere" label="Cohere">
+
+```python
+import litellm, os 
+
+# set env variables
+os.environ["COHERE_API_KEY"] = "your-cohere-key"   
+
+## SET MAX TOKENS - via completion()
+response_1 = litellm.completion(
+            model="command-nightly",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+            max_tokens=10
+        )
+
+response_1_text = response_1.choices[0].message.content
+
+## SET MAX TOKENS - via config
+litellm.CohereConfig(max_tokens=200)
+response_2 = litellm.completion(
+            model="command-nightly",
+            messages=[{ "content": "Hello, how are you?","role": "user"}],
+        )
+
+response_2_text = response_2.choices[0].message.content
+
+## TEST OUTPUT
+assert len(response_2_text) > len(response_1_text)
+```
+
+</TabItem>
+
+</Tabs>
+
+
+[**Check out the tutorial!**](../tutorials/provider_specific_params.md)
+
+
+## Proxy Usage 
+
+**via Config**
+
+```yaml
+model_list:
+    - model_name: llama-3-8b-instruct
+      litellm_params:
+        model: predibase/llama-3-8b-instruct
+        api_key: os.environ/PREDIBASE_API_KEY
+        tenant_id: os.environ/PREDIBASE_TENANT_ID
+        max_tokens: 256
+        adapter_base: <my-special_base> # 👈 PROVIDER-SPECIFIC PARAM
+```
+
+**via Request**
+
+```bash
+curl -X POST 'http://0.0.0.0:4000/chat/completions' \
+-H 'Content-Type: application/json' \
+-H 'Authorization: Bearer sk-1234' \
+-D '{
+  "model": "llama-3-8b-instruct",
+  "messages": [
+    {
+      "role": "user",
+      "content": "What'\''s the weather like in Boston today?"
+    }
+  ],
+  "adapater_id": "my-special-adapter-id" # 👈 PROVIDER-SPECIFIC PARAM
+  }'
+```
--- a/docs/my-website/sidebars.js
+++ b/docs/my-website/sidebars.js
@ -90,6 +90,7 @@ const sidebars = {
      },
      items: [
        "completion/input",
+        "completion/provider_specific_params",
        "completion/drop_params",
        "completion/prompt_formatting",
        "completion/output",