fix(utils.py): fix streaming to not return usage dict

Fixes https://github.com/BerriAI/litellm/issues/3237
2025-04-26 11:14:04 +00:00 · 2024-04-24 08:06:07 -07:00 · 2024-04-24 08:06:07 -07:00 · 48c2c3d78a
commit 48c2c3d78a
parent 70c98617da
24 changed files with 107 additions and 83 deletions
--- a/litellm/llms/nlp_cloud.py
+++ b/litellm/llms/nlp_cloud.py
@ -185,9 +185,9 @@ def completion(
        else:
            try:
                if len(completion_response["generated_text"]) > 0:
-                    model_response["choices"][0]["message"][
-                        "content"
-                    ] = completion_response["generated_text"]
+                    model_response["choices"][0]["message"]["content"] = (
+                        completion_response["generated_text"]
+                    )
            except:
                raise NLPCloudError(
                    message=json.dumps(completion_response),
@ -205,7 +205,7 @@ def completion(
            completion_tokens=completion_tokens,
            total_tokens=prompt_tokens + completion_tokens,
        )
-        model_response.usage = usage
+        setattr(model_response, "usage", usage)
        return model_response