Merge branch 'meta-llama:main' into feat/litellm_sambanova_usage

2025-12-27 23:31:59 +00:00 · 2025-04-14 08:51:59 -05:00 · 2025-04-14 08:51:59 -05:00 · dd808a8c1e
commit dd808a8c1e
parent 172a918fe3 68eeacec0e
57 changed files with 1392 additions and 671 deletions
--- a/tests/integration/inference/test_text_inference.py
+++ b/tests/integration/inference/test_text_inference.py
@ -5,7 +5,6 @@
 # the root directory of this source tree.


-import os
 from time import sleep

 import pytest
@ -66,15 +65,6 @@ def get_llama_model(client_with_models, model_id):
    return model.metadata.get("llama_model", None)


-def get_llama_tokenizer():
-    from llama_models.llama3.api.chat_format import ChatFormat
-    from llama_models.llama3.api.tokenizer import Tokenizer
-
-    tokenizer = Tokenizer.get_instance()
-    formatter = ChatFormat(tokenizer)
-    return tokenizer, formatter
-
-
@pytest.mark.parametrize(
    "test_case",
    [
@ -273,41 +263,6 @@ def test_text_chat_completion_non_streaming(client_with_models, text_model_id, t
    assert expected.lower() in message_content


-@pytest.mark.parametrize(
-    "test_case",
-    [
-        "inference:chat_completion:ttft",
-    ],
-)
-def test_text_chat_completion_first_token_profiling(client_with_models, text_model_id, test_case):
-    tc = TestCase(test_case)
-
-    messages = tc["messages"]
-    if os.environ.get("DEBUG_TTFT"):  # debugging print number of tokens in input, ideally around 800
-        from pydantic import TypeAdapter
-
-        from llama_stack.apis.inference import Message
-
-        tokenizer, formatter = get_llama_tokenizer()
-        typed_messages = [TypeAdapter(Message).validate_python(m) for m in messages]
-        encoded = formatter.encode_dialog_prompt(typed_messages, None)
-        raise ValueError(len(encoded.tokens) if encoded and encoded.tokens else 0)
-
-    response = client_with_models.inference.chat_completion(
-        model_id=text_model_id,
-        messages=messages,
-        stream=False,
-        timeout=120,  # Increase timeout to 2 minutes for large conversation history
-    )
-    message_content = response.completion_message.content.lower().strip()
-    assert len(message_content) > 0
-
-    if os.environ.get("DEBUG_TTFT"):  # debugging print number of tokens in response, ideally around 150
-        tokenizer, formatter = get_llama_tokenizer()
-        encoded = formatter.encode_content(message_content)
-        raise ValueError(len(encoded.tokens) if encoded and encoded.tokens else 0)
-
-
@pytest.mark.parametrize(
    "test_case",
    [