Add inference token usage metrics

2025-08-12 04:50:39 +00:00 · 2025-02-04 10:45:16 -08:00 · 2025-02-04 10:45:16 -08:00 · a72cdafac0
commit a72cdafac0
parent 0762c61402
3 changed files with 57 additions and 7 deletions
--- a/llama_stack/apis/inference/inference.py
+++ b/llama_stack/apis/inference/inference.py
@ -17,12 +17,13 @@ from typing import (
    runtime_checkable,
 )
 from llama_models.schema_utils import json_schema_type, register_schema, webmethod
 from pydantic import BaseModel, Field, field_validator
 from typing_extensions import Annotated
 from llama_stack.apis.common.content_types import ContentDelta, InterleavedContent, InterleavedContentItem
 from llama_stack.apis.models import Model
-from llama_stack.apis.telemetry.telemetry import MetricResponseMixin
+from llama_stack.apis.telemetry.telemetry import MetricsMixin
 from llama_stack.models.llama.datatypes import (
    BuiltinTool,
    SamplingParams,
@ -285,7 +286,7 @@ class CompletionRequest(BaseModel):
@json_schema_type
-class CompletionResponse(BaseModel):
+class CompletionResponse(MetricsMixin, BaseModel):
    """Response from a completion request.
    :param content: The generated completion text
@ -299,7 +300,7 @@ class CompletionResponse(BaseModel):
@json_schema_type
-class CompletionResponseStreamChunk(BaseModel):
+class CompletionResponseStreamChunk(MetricsMixin, BaseModel):
    """A chunk of a streamed completion response.
    :param delta: New content generated since last chunk. This can be one or more tokens.
@ -368,7 +369,7 @@ class ChatCompletionRequest(BaseModel):
@json_schema_type
-class ChatCompletionResponseStreamChunk(MetricResponseMixin, BaseModel):
+class ChatCompletionResponseStreamChunk(MetricsMixin, BaseModel):
    """A chunk of a streamed chat completion response.
    :param event: The event containing the new content
@ -378,7 +379,7 @@ class ChatCompletionResponseStreamChunk(MetricResponseMixin, BaseModel):
@json_schema_type
-class ChatCompletionResponse(MetricResponseMixin, BaseModel):
+class ChatCompletionResponse(MetricsMixin, BaseModel):
    """Response from a chat completion request.
    :param completion_message: The complete response message
@ -390,7 +391,7 @@ class ChatCompletionResponse(MetricResponseMixin, BaseModel):
@json_schema_type
-class EmbeddingsResponse(BaseModel):
+class EmbeddingsResponse(MetricsMixin, BaseModel):
    """Response containing generated embeddings.
    :param embeddings: List of embedding vectors, one per input content. Each embedding is a list of floats. The dimensionality of the embedding is model-specific; you can check model metadata using /models/{model_id}
--- a/llama_stack/apis/telemetry/telemetry.py
+++ b/llama_stack/apis/telemetry/telemetry.py
@ -211,6 +211,28 @@ class QuerySpanTreeResponse(BaseModel):
    data: Dict[str, SpanWithStatus]
@json_schema_type
 class TokenUsage(BaseModel):
    type: Literal["token_usage"] = "token_usage"
    prompt_tokens: int
    completion_tokens: int
    total_tokens: int
 Metric = register_schema(
    Annotated[
        Union[TokenUsage],
        Field(discriminator="type"),
    ],
    name="Metric",
 )
@json_schema_type
 class MetricsMixin(BaseModel):
    metrics: List[Metric] = Field(default_factory=list)
@runtime_checkable
 class Telemetry(Protocol):
    @webmethod(route="/telemetry/events", method="POST")
--- a/llama_stack/distribution/routers/routers.py
+++ b/llama_stack/distribution/routers/routers.py
@ -6,6 +6,9 @@
 from typing import Any, AsyncGenerator, Dict, List, Optional
 from llama_models.llama3.api.chat_format import ChatFormat
 from llama_models.llama3.api.tokenizer import Tokenizer
 from llama_stack.apis.common.content_types import (
    URL,
    InterleavedContent,
@ -42,6 +45,7 @@ from llama_stack.apis.scoring import (
    ScoringFnParams,
 )
 from llama_stack.apis.shields import Shield
 from llama_stack.apis.telemetry import TokenUsage
 from llama_stack.apis.tools import (
    RAGDocument,
    RAGQueryConfig,
@ -111,6 +115,8 @@ class InferenceRouter(Inference):
        routing_table: RoutingTable,
    ) -> None:
        self.routing_table = routing_table
        self.tokenizer = Tokenizer.get_instance()
        self.formatter = ChatFormat(self.tokenizer)
    async def initialize(self) -> None:
        pass
@ -190,7 +196,28 @@ class InferenceRouter(Inference):
        if stream:
            return (chunk async for chunk in await provider.chat_completion(**params))
        else:
-            return await provider.chat_completion(**params)
+            response = await provider.chat_completion(**params)
            model_input = self.formatter.encode_dialog_prompt(
                messages,
                tool_config.tool_prompt_format,
            )
            model_output = self.formatter.encode_dialog_prompt(
                [response.completion_message],
                tool_config.tool_prompt_format,
            )
            prompt_tokens = len(model_input.tokens) if model_input.tokens else 0
            completion_tokens = len(model_output.tokens) if model_output.tokens else 0
            total_tokens = prompt_tokens + completion_tokens
            if response.metrics is None:
                response.metrics = []
            response.metrics.append(
                TokenUsage(
                    prompt_tokens=prompt_tokens,
                    completion_tokens=completion_tokens,
                    total_tokens=total_tokens,
                )
            )
            return response
    async def completion(
        self,