LiteLLM Minor Fixes & Improvements (11/29/2024) (#6965)

* fix(factory.py): ensure tool call converts image url Fixes https://github.com/BerriAI/litellm/issues/6953 * fix(transformation.py): support mp4 + pdf url's for vertex ai Fixes https://github.com/BerriAI/litellm/issues/6936 * fix(http_handler.py): mask gemini api key in error logs Fixes https://github.com/BerriAI/litellm/issues/6963 * docs(prometheus.md): update prometheus FAQs * feat(auth_checks.py): ensure specific model access > wildcard model access if wildcard model is in access group, but specific model is not - deny access * fix(auth_checks.py): handle auth checks for team based model access groups handles scenario where model access group used for wildcard models * fix(internal_user_endpoints.py): support adding guardrails on `/user/update` Fixes https://github.com/BerriAI/litellm/issues/6942 * fix(key_management_endpoints.py): fix prepare_metadata_fields helper * fix: fix tests * build(requirements.txt): bump openai dep version fixes proxies argument * test: fix tests * fix(http_handler.py): fix error message masking * fix(bedrock_guardrails.py): pass in prepped data * test: fix test * test: fix nvidia nim test * fix(http_handler.py): return original response headers * fix: revert maskedhttpstatuserror * test: update tests * test: cleanup test * fix(key_management_endpoints.py): fix metadata field update logic * fix(key_management_endpoints.py): maintain initial order of guardrails in key update * fix(key_management_endpoints.py): handle prepare metadata * fix: fix linting errors * fix: fix linting errors * fix: fix linting errors * fix: fix key management errors * fix(key_management_endpoints.py): update metadata * test: update test * refactor: add more debug statements * test: skip flaky test * test: fix test * fix: fix test * fix: fix update metadata logic * fix: fix test * ci(config.yml): change db url for e2e ui testing
2024-12-01 05:24:11 -08:00 · 2024-12-01 05:24:11 -08:00 · 859b47f08b
commit 859b47f08b
parent bd59f18809
37 changed files with 1040 additions and 714 deletions
--- a/tests/llm_translation/test_openai_o1.py
+++ b/tests/llm_translation/test_openai_o1.py
@ -2,7 +2,7 @@ import json
 import os
 import sys
 from datetime import datetime
-from unittest.mock import AsyncMock
+from unittest.mock import AsyncMock, patch, MagicMock

 sys.path.insert(
    0, os.path.abspath("../..")
@ -18,87 +18,75 @@ from litellm import Choices, Message, ModelResponse


@pytest.mark.asyncio
-@pytest.mark.respx
-async def test_o1_handle_system_role(respx_mock: MockRouter):
+async def test_o1_handle_system_role():
    """
    Tests that:
    - max_tokens is translated to 'max_completion_tokens'
    - role 'system' is translated to 'user'
    """
+    from openai import AsyncOpenAI
+
    litellm.set_verbose = True

-    mock_response = ModelResponse(
-        id="cmpl-mock",
-        choices=[Choices(message=Message(content="Mocked response", role="assistant"))],
-        created=int(datetime.now().timestamp()),
-        model="o1-preview",
-    )
+    client = AsyncOpenAI(api_key="fake-api-key")

-    mock_request = respx_mock.post("https://api.openai.com/v1/chat/completions").mock(
-        return_value=httpx.Response(200, json=mock_response.dict())
-    )
+    with patch.object(
+        client.chat.completions.with_raw_response, "create"
+    ) as mock_client:
+        try:
+            await litellm.acompletion(
+                model="o1-preview",
+                max_tokens=10,
+                messages=[{"role": "system", "content": "Hello!"}],
+                client=client,
+            )
+        except Exception as e:
+            print(f"Error: {e}")

-    response = await litellm.acompletion(
-        model="o1-preview",
-        max_tokens=10,
-        messages=[{"role": "system", "content": "Hello!"}],
-    )
+        mock_client.assert_called_once()
+        request_body = mock_client.call_args.kwargs

-    assert mock_request.called
-    request_body = json.loads(mock_request.calls[0].request.content)
+        print("request_body: ", request_body)

-    print("request_body: ", request_body)
-
-    assert request_body == {
-        "model": "o1-preview",
-        "max_completion_tokens": 10,
-        "messages": [{"role": "user", "content": "Hello!"}],
-    }
-
-    print(f"response: {response}")
-    assert isinstance(response, ModelResponse)
+        assert request_body["model"] == "o1-preview"
+        assert request_body["max_completion_tokens"] == 10
+        assert request_body["messages"] == [{"role": "user", "content": "Hello!"}]


@pytest.mark.asyncio
-@pytest.mark.respx
@pytest.mark.parametrize("model", ["gpt-4", "gpt-4-0314", "gpt-4-32k", "o1-preview"])
-async def test_o1_max_completion_tokens(respx_mock: MockRouter, model: str):
+async def test_o1_max_completion_tokens(model: str):
    """
    Tests that:
    - max_completion_tokens is passed directly to OpenAI chat completion models
    """
+    from openai import AsyncOpenAI
+
    litellm.set_verbose = True

-    mock_response = ModelResponse(
-        id="cmpl-mock",
-        choices=[Choices(message=Message(content="Mocked response", role="assistant"))],
-        created=int(datetime.now().timestamp()),
-        model=model,
-    )
+    client = AsyncOpenAI(api_key="fake-api-key")

-    mock_request = respx_mock.post("https://api.openai.com/v1/chat/completions").mock(
-        return_value=httpx.Response(200, json=mock_response.dict())
-    )
+    with patch.object(
+        client.chat.completions.with_raw_response, "create"
+    ) as mock_client:
+        try:
+            await litellm.acompletion(
+                model=model,
+                max_completion_tokens=10,
+                messages=[{"role": "user", "content": "Hello!"}],
+                client=client,
+            )
+        except Exception as e:
+            print(f"Error: {e}")

-    response = await litellm.acompletion(
-        model=model,
-        max_completion_tokens=10,
-        messages=[{"role": "user", "content": "Hello!"}],
-    )
+        mock_client.assert_called_once()
+        request_body = mock_client.call_args.kwargs

-    assert mock_request.called
-    request_body = json.loads(mock_request.calls[0].request.content)
+        print("request_body: ", request_body)

-    print("request_body: ", request_body)
-
-    assert request_body == {
-        "model": model,
-        "max_completion_tokens": 10,
-        "messages": [{"role": "user", "content": "Hello!"}],
-    }
-
-    print(f"response: {response}")
-    assert isinstance(response, ModelResponse)
+        assert request_body["model"] == model
+        assert request_body["max_completion_tokens"] == 10
+        assert request_body["messages"] == [{"role": "user", "content": "Hello!"}]


 def test_litellm_responses():