refactor(openai/azure.py): move to returning openai/azure response headers by default

Allows token tracking to work more reliably across multiple azure/openai deployments
2025-04-26 11:14:04 +00:00 · 2024-08-02 09:42:08 -07:00 · 2024-08-02 09:42:08 -07:00 · fe2aa706e8
commit fe2aa706e8
parent cd073d5ad3
2 changed files with 13 additions and 27 deletions
--- a/litellm/llms/azure.py
+++ b/litellm/llms/azure.py
@ -474,21 +474,13 @@ class AzureChatCompletion(BaseLLM):
        - call chat.completions.create by default
        """
        try:
-            if litellm.return_response_headers is True:
+            raw_response = await azure_client.chat.completions.with_raw_response.create(
-                raw_response = (
+                **data, timeout=timeout
-                    await azure_client.chat.completions.with_raw_response.create(
+            )
                        **data, timeout=timeout
                    )
                )
-                headers = dict(raw_response.headers)
+            headers = dict(raw_response.headers)
-                response = raw_response.parse()
+            response = raw_response.parse()
-                return headers, response
+            return headers, response
            else:
                response = await azure_client.chat.completions.create(
                    **data, timeout=timeout
                )
                return None, response
        except Exception as e:
            raise e
--- a/litellm/llms/openai.py
+++ b/litellm/llms/openai.py
@ -768,21 +768,15 @@ class OpenAIChatCompletion(BaseLLM):
        - call chat.completions.create by default
        """
        try:
-            if litellm.return_response_headers is True:
+            raw_response = (
-                raw_response = (
+                await openai_aclient.chat.completions.with_raw_response.create(
                    await openai_aclient.chat.completions.with_raw_response.create(
                        **data, timeout=timeout
                    )
                )
                headers = dict(raw_response.headers)
                response = raw_response.parse()
                return headers, response
            else:
                response = await openai_aclient.chat.completions.create(
                    **data, timeout=timeout
                )
-                return None, response
+            )
            headers = dict(raw_response.headers)
            response = raw_response.parse()
            return headers, response
        except Exception as e:
            raise e