feat(responses): add mcp list tool streaming event (#3159)

# What does this PR do? Adds proper streaming events for MCP tool listing (`mcp_list_tools.in_progress` and `mcp_list_tools.completed`). Also refactors things a bit more. ## Test Plan Verified existing integration tests pass with the refactored code. The test `test_response_streaming_multi_turn_tool_execution` has been updated to check for the new MCP list tools streaming events
2025-12-04 02:03:44 +00:00 · 2025-08-15 00:05:36 +00:00 · 2025-08-15 00:05:36 +00:00 · ba664474de
commit ba664474de
parent 9324e902f1
5 changed files with 260 additions and 145 deletions
--- a/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
+++ b/llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py
@ -8,40 +8,29 @@ import time
 import uuid
 from collections.abc import AsyncIterator
 from openai.types.chat import ChatCompletionToolParam
 from pydantic import BaseModel
 from llama_stack.apis.agents import Order
 from llama_stack.apis.agents.openai_responses import (
    AllowedToolsFilter,
    ListOpenAIResponseInputItem,
    ListOpenAIResponseObject,
    MCPListToolsTool,
    OpenAIDeleteResponseObject,
    OpenAIResponseInput,
    OpenAIResponseInputMessageContentText,
    OpenAIResponseInputTool,
    OpenAIResponseInputToolMCP,
    OpenAIResponseMessage,
    OpenAIResponseObject,
    OpenAIResponseObjectStream,
    OpenAIResponseOutput,
    OpenAIResponseOutputMessageMCPListTools,
    OpenAIResponseText,
    OpenAIResponseTextFormat,
    WebSearchToolTypes,
 )
 from llama_stack.apis.inference import (
    Inference,
    OpenAISystemMessageParam,
 )
-from llama_stack.apis.tools import Tool, ToolGroups, ToolRuntime
+from llama_stack.apis.tools import ToolGroups, ToolRuntime
 from llama_stack.apis.vector_io import VectorIO
 from llama_stack.log import get_logger
 from llama_stack.models.llama.datatypes import ToolDefinition, ToolParamDefinition
 from llama_stack.providers.utils.inference.openai_compat import (
    convert_tooldef_to_openai_tool,
 )
 from llama_stack.providers.utils.responses.responses_store import ResponsesStore
 from .streaming import StreamingResponseOrchestrator
@ -242,17 +231,10 @@ class OpenAIResponsesImpl:
        # Structured outputs
        response_format = await convert_response_text_to_chat_response_format(text)
        # Tool setup, TODO: refactor this slightly since this can also yield events
        chat_tools, mcp_tool_to_server, mcp_list_message = (
            await self._convert_response_tools_to_chat_tools(tools) if tools else (None, {}, None)
        )
        ctx = ChatCompletionContext(
            model=model,
            messages=messages,
            response_tools=tools,
            chat_tools=chat_tools,
            mcp_tool_to_server=mcp_tool_to_server,
            temperature=temperature,
            response_format=response_format,
        )
@ -269,7 +251,6 @@ class OpenAIResponsesImpl:
            text=text,
            max_infer_iters=max_infer_iters,
            tool_executor=self.tool_executor,
            mcp_list_message=mcp_list_message,
        )
        # Stream the response
@ -288,98 +269,3 @@ class OpenAIResponsesImpl:
    async def delete_openai_response(self, response_id: str) -> OpenAIDeleteResponseObject:
        return await self.responses_store.delete_response_object(response_id)
    async def _convert_response_tools_to_chat_tools(
        self, tools: list[OpenAIResponseInputTool]
    ) -> tuple[
        list[ChatCompletionToolParam],
        dict[str, OpenAIResponseInputToolMCP],
        OpenAIResponseOutput | None,
    ]:
        mcp_tool_to_server = {}
        def make_openai_tool(tool_name: str, tool: Tool) -> ChatCompletionToolParam:
            tool_def = ToolDefinition(
                tool_name=tool_name,
                description=tool.description,
                parameters={
                    param.name: ToolParamDefinition(
                        param_type=param.parameter_type,
                        description=param.description,
                        required=param.required,
                        default=param.default,
                    )
                    for param in tool.parameters
                },
            )
            return convert_tooldef_to_openai_tool(tool_def)
        mcp_list_message = None
        chat_tools: list[ChatCompletionToolParam] = []
        for input_tool in tools:
            # TODO: Handle other tool types
            if input_tool.type == "function":
                chat_tools.append(ChatCompletionToolParam(type="function", function=input_tool.model_dump()))
            elif input_tool.type in WebSearchToolTypes:
                tool_name = "web_search"
                tool = await self.tool_groups_api.get_tool(tool_name)
                if not tool:
                    raise ValueError(f"Tool {tool_name} not found")
                chat_tools.append(make_openai_tool(tool_name, tool))
            elif input_tool.type == "file_search":
                tool_name = "knowledge_search"
                tool = await self.tool_groups_api.get_tool(tool_name)
                if not tool:
                    raise ValueError(f"Tool {tool_name} not found")
                chat_tools.append(make_openai_tool(tool_name, tool))
            elif input_tool.type == "mcp":
                from llama_stack.providers.utils.tools.mcp import list_mcp_tools
                always_allowed = None
                never_allowed = None
                if input_tool.allowed_tools:
                    if isinstance(input_tool.allowed_tools, list):
                        always_allowed = input_tool.allowed_tools
                    elif isinstance(input_tool.allowed_tools, AllowedToolsFilter):
                        always_allowed = input_tool.allowed_tools.always
                        never_allowed = input_tool.allowed_tools.never
                tool_defs = await list_mcp_tools(
                    endpoint=input_tool.server_url,
                    headers=input_tool.headers or {},
                )
                mcp_list_message = OpenAIResponseOutputMessageMCPListTools(
                    id=f"mcp_list_{uuid.uuid4()}",
                    status="completed",
                    server_label=input_tool.server_label,
                    tools=[],
                )
                for t in tool_defs.data:
                    if never_allowed and t.name in never_allowed:
                        continue
                    if not always_allowed or t.name in always_allowed:
                        chat_tools.append(make_openai_tool(t.name, t))
                        if t.name in mcp_tool_to_server:
                            raise ValueError(f"Duplicate tool name {t.name} found for server {input_tool.server_label}")
                        mcp_tool_to_server[t.name] = input_tool
                        mcp_list_message.tools.append(
                            MCPListToolsTool(
                                name=t.name,
                                description=t.description,
                                input_schema={
                                    "type": "object",
                                    "properties": {
                                        p.name: {
                                            "type": p.parameter_type,
                                            "description": p.description,
                                        }
                                        for p in t.parameters
                                    },
                                    "required": [p.name for p in t.parameters if p.required],
                                },
                            )
                        )
            else:
                raise ValueError(f"Llama Stack OpenAI Responses does not yet support tool type: {input_tool.type}")
        return chat_tools, mcp_tool_to_server, mcp_list_message
--- a/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
+++ b/llama_stack/providers/inline/agents/meta_reference/responses/streaming.py
@ -9,7 +9,11 @@ from collections.abc import AsyncIterator
 from typing import Any
 from llama_stack.apis.agents.openai_responses import (
    AllowedToolsFilter,
    MCPListToolsTool,
    OpenAIResponseContentPartOutputText,
    OpenAIResponseInputTool,
    OpenAIResponseInputToolMCP,
    OpenAIResponseObject,
    OpenAIResponseObjectStream,
    OpenAIResponseObjectStreamResponseCompleted,
@ -20,12 +24,16 @@ from llama_stack.apis.agents.openai_responses import (
    OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone,
    OpenAIResponseObjectStreamResponseMcpCallArgumentsDelta,
    OpenAIResponseObjectStreamResponseMcpCallArgumentsDone,
    OpenAIResponseObjectStreamResponseMcpListToolsCompleted,
    OpenAIResponseObjectStreamResponseMcpListToolsInProgress,
    OpenAIResponseObjectStreamResponseOutputItemAdded,
    OpenAIResponseObjectStreamResponseOutputItemDone,
    OpenAIResponseObjectStreamResponseOutputTextDelta,
    OpenAIResponseOutput,
    OpenAIResponseOutputMessageFunctionToolCall,
    OpenAIResponseOutputMessageMCPListTools,
    OpenAIResponseText,
    WebSearchToolTypes,
 )
 from llama_stack.apis.inference import (
    Inference,
@ -52,7 +60,6 @@ class StreamingResponseOrchestrator:
        text: OpenAIResponseText,
        max_infer_iters: int,
        tool_executor,  # Will be the tool execution logic from the main class
        mcp_list_message: OpenAIResponseOutput | None = None,
    ):
        self.inference_api = inference_api
        self.ctx = ctx
@ -62,13 +69,12 @@ class StreamingResponseOrchestrator:
        self.max_infer_iters = max_infer_iters
        self.tool_executor = tool_executor
        self.sequence_number = 0
-        self.mcp_list_message = mcp_list_message
+        # Store MCP tool mapping that gets built during tool processing
        self.mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] = {}
    async def create_response(self) -> AsyncIterator[OpenAIResponseObjectStream]:
-        # Initialize output messages with MCP list message if present
+        # Initialize output messages
        output_messages: list[OpenAIResponseOutput] = []
        if self.mcp_list_message:
            output_messages.append(self.mcp_list_message)
        # Create initial response and emit response.created immediately
        initial_response = OpenAIResponseObject(
            created_at=self.created_at,
@ -82,6 +88,11 @@ class StreamingResponseOrchestrator:
        yield OpenAIResponseObjectStreamResponseCreated(response=initial_response)
        # Process all tools (including MCP tools) and emit streaming events
        if self.ctx.response_tools:
            async for stream_event in self._process_tools(self.ctx.response_tools, output_messages):
                yield stream_event
        n_iter = 0
        messages = self.ctx.messages.copy()
@ -261,9 +272,7 @@ class StreamingResponseOrchestrator:
                            self.sequence_number += 1
                            # Check if this is an MCP tool call
-                            is_mcp_tool = (
+                            is_mcp_tool = tool_call.function.name and tool_call.function.name in self.mcp_tool_to_server
                                tool_call.function.name and tool_call.function.name in self.ctx.mcp_tool_to_server
                            )
                            if is_mcp_tool:
                                # Emit MCP-specific argument delta event
                                yield OpenAIResponseObjectStreamResponseMcpCallArgumentsDelta(
@ -294,9 +303,7 @@ class StreamingResponseOrchestrator:
            tool_call_name = chat_response_tool_calls[tool_call_index].function.name
            # Check if this is an MCP tool call
-            is_mcp_tool = (
+            is_mcp_tool = tool_call_name and tool_call_name in self.mcp_tool_to_server
                self.ctx.mcp_tool_to_server and tool_call_name and tool_call_name in self.ctx.mcp_tool_to_server
            )
            self.sequence_number += 1
            done_event_cls = (
                OpenAIResponseObjectStreamResponseMcpCallArgumentsDone
@ -391,7 +398,12 @@ class StreamingResponseOrchestrator:
            tool_call_log = None
            tool_response_message = None
            async for result in self.tool_executor.execute_tool_call(
-                tool_call, self.ctx, self.sequence_number, len(output_messages), matching_item_id
+                tool_call,
                self.ctx,
                self.sequence_number,
                len(output_messages),
                matching_item_id,
                self.mcp_tool_to_server,
            ):
                if result.stream_event:
                    # Forward streaming events
@ -449,3 +461,174 @@ class StreamingResponseOrchestrator:
                output_index=len(output_messages) - 1,
                sequence_number=self.sequence_number,
            )
    async def _process_tools(
        self, tools: list[OpenAIResponseInputTool], output_messages: list[OpenAIResponseOutput]
    ) -> AsyncIterator[OpenAIResponseObjectStream]:
        """Process all tools and emit appropriate streaming events."""
        from openai.types.chat import ChatCompletionToolParam
        from llama_stack.apis.tools import Tool
        from llama_stack.models.llama.datatypes import ToolDefinition, ToolParamDefinition
        from llama_stack.providers.utils.inference.openai_compat import convert_tooldef_to_openai_tool
        def make_openai_tool(tool_name: str, tool: Tool) -> ChatCompletionToolParam:
            tool_def = ToolDefinition(
                tool_name=tool_name,
                description=tool.description,
                parameters={
                    param.name: ToolParamDefinition(
                        param_type=param.parameter_type,
                        description=param.description,
                        required=param.required,
                        default=param.default,
                    )
                    for param in tool.parameters
                },
            )
            return convert_tooldef_to_openai_tool(tool_def)
        # Initialize chat_tools if not already set
        if self.ctx.chat_tools is None:
            self.ctx.chat_tools = []
        for input_tool in tools:
            if input_tool.type == "function":
                self.ctx.chat_tools.append(ChatCompletionToolParam(type="function", function=input_tool.model_dump()))
            elif input_tool.type in WebSearchToolTypes:
                tool_name = "web_search"
                # Need to access tool_groups_api from tool_executor
                tool = await self.tool_executor.tool_groups_api.get_tool(tool_name)
                if not tool:
                    raise ValueError(f"Tool {tool_name} not found")
                self.ctx.chat_tools.append(make_openai_tool(tool_name, tool))
            elif input_tool.type == "file_search":
                tool_name = "knowledge_search"
                tool = await self.tool_executor.tool_groups_api.get_tool(tool_name)
                if not tool:
                    raise ValueError(f"Tool {tool_name} not found")
                self.ctx.chat_tools.append(make_openai_tool(tool_name, tool))
            elif input_tool.type == "mcp":
                async for stream_event in self._process_mcp_tool(input_tool, output_messages):
                    yield stream_event
            else:
                raise ValueError(f"Llama Stack OpenAI Responses does not yet support tool type: {input_tool.type}")
    async def _process_mcp_tool(
        self, mcp_tool: OpenAIResponseInputToolMCP, output_messages: list[OpenAIResponseOutput]
    ) -> AsyncIterator[OpenAIResponseObjectStream]:
        """Process an MCP tool configuration and emit appropriate streaming events."""
        from llama_stack.providers.utils.tools.mcp import list_mcp_tools
        # Emit mcp_list_tools.in_progress
        self.sequence_number += 1
        yield OpenAIResponseObjectStreamResponseMcpListToolsInProgress(
            sequence_number=self.sequence_number,
        )
        try:
            # Parse allowed/never allowed tools
            always_allowed = None
            never_allowed = None
            if mcp_tool.allowed_tools:
                if isinstance(mcp_tool.allowed_tools, list):
                    always_allowed = mcp_tool.allowed_tools
                elif isinstance(mcp_tool.allowed_tools, AllowedToolsFilter):
                    always_allowed = mcp_tool.allowed_tools.always
                    never_allowed = mcp_tool.allowed_tools.never
            # Call list_mcp_tools
            tool_defs = await list_mcp_tools(
                endpoint=mcp_tool.server_url,
                headers=mcp_tool.headers or {},
            )
            # Create the MCP list tools message
            mcp_list_message = OpenAIResponseOutputMessageMCPListTools(
                id=f"mcp_list_{uuid.uuid4()}",
                server_label=mcp_tool.server_label,
                tools=[],
            )
            # Process tools and update context
            for t in tool_defs.data:
                if never_allowed and t.name in never_allowed:
                    continue
                if not always_allowed or t.name in always_allowed:
                    # Add to chat tools for inference
                    from llama_stack.models.llama.datatypes import ToolDefinition, ToolParamDefinition
                    from llama_stack.providers.utils.inference.openai_compat import convert_tooldef_to_openai_tool
                    tool_def = ToolDefinition(
                        tool_name=t.name,
                        description=t.description,
                        parameters={
                            param.name: ToolParamDefinition(
                                param_type=param.parameter_type,
                                description=param.description,
                                required=param.required,
                                default=param.default,
                            )
                            for param in t.parameters
                        },
                    )
                    openai_tool = convert_tooldef_to_openai_tool(tool_def)
                    if self.ctx.chat_tools is None:
                        self.ctx.chat_tools = []
                    self.ctx.chat_tools.append(openai_tool)
                    # Add to MCP tool mapping
                    if t.name in self.mcp_tool_to_server:
                        raise ValueError(f"Duplicate tool name {t.name} found for server {mcp_tool.server_label}")
                    self.mcp_tool_to_server[t.name] = mcp_tool
                    # Add to MCP list message
                    mcp_list_message.tools.append(
                        MCPListToolsTool(
                            name=t.name,
                            description=t.description,
                            input_schema={
                                "type": "object",
                                "properties": {
                                    p.name: {
                                        "type": p.parameter_type,
                                        "description": p.description,
                                    }
                                    for p in t.parameters
                                },
                                "required": [p.name for p in t.parameters if p.required],
                            },
                        )
                    )
            # Add the MCP list message to output
            output_messages.append(mcp_list_message)
            # Emit output_item.added for the MCP list tools message
            self.sequence_number += 1
            yield OpenAIResponseObjectStreamResponseOutputItemAdded(
                response_id=self.response_id,
                item=mcp_list_message,
                output_index=len(output_messages) - 1,
                sequence_number=self.sequence_number,
            )
            # Emit mcp_list_tools.completed
            self.sequence_number += 1
            yield OpenAIResponseObjectStreamResponseMcpListToolsCompleted(
                sequence_number=self.sequence_number,
            )
            # Emit output_item.done for the MCP list tools message
            self.sequence_number += 1
            yield OpenAIResponseObjectStreamResponseOutputItemDone(
                response_id=self.response_id,
                item=mcp_list_message,
                output_index=len(output_messages) - 1,
                sequence_number=self.sequence_number,
            )
        except Exception as e:
            # TODO: Emit mcp_list_tools.failed event if needed
            logger.exception(f"Failed to list MCP tools from {mcp_tool.server_url}: {e}")
            raise
--- a/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
+++ b/llama_stack/providers/inline/agents/meta_reference/responses/tool_executor.py
@ -10,6 +10,7 @@ from collections.abc import AsyncIterator
 from llama_stack.apis.agents.openai_responses import (
    OpenAIResponseInputToolFileSearch,
    OpenAIResponseInputToolMCP,
    OpenAIResponseObjectStreamResponseMcpCallCompleted,
    OpenAIResponseObjectStreamResponseMcpCallFailed,
    OpenAIResponseObjectStreamResponseMcpCallInProgress,
@ -58,6 +59,7 @@ class ToolExecutor:
        sequence_number: int,
        output_index: int,
        item_id: str,
        mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] | None = None,
    ) -> AsyncIterator[ToolExecutionResult]:
        tool_call_id = tool_call.id
        function = tool_call.function
@ -69,25 +71,25 @@ class ToolExecutor:
        # Emit progress events for tool execution start
        async for event_result in self._emit_progress_events(
-            function.name, ctx, sequence_number, output_index, item_id
+            function.name, ctx, sequence_number, output_index, item_id, mcp_tool_to_server
        ):
            sequence_number = event_result.sequence_number
            yield event_result
        # Execute the actual tool call
-        error_exc, result = await self._execute_tool(function.name, tool_kwargs, ctx)
+        error_exc, result = await self._execute_tool(function.name, tool_kwargs, ctx, mcp_tool_to_server)
        # Emit completion events for tool execution
        has_error = error_exc or (result and ((result.error_code and result.error_code > 0) or result.error_message))
        async for event_result in self._emit_completion_events(
-            function.name, ctx, sequence_number, output_index, item_id, has_error
+            function.name, ctx, sequence_number, output_index, item_id, has_error, mcp_tool_to_server
        ):
            sequence_number = event_result.sequence_number
            yield event_result
        # Build result messages from tool execution
        output_message, input_message = await self._build_result_messages(
-            function, tool_call_id, tool_kwargs, ctx, error_exc, result, has_error
+            function, tool_call_id, tool_kwargs, ctx, error_exc, result, has_error, mcp_tool_to_server
        )
        # Yield the final result
@ -161,12 +163,18 @@ class ToolExecutor:
        )
    async def _emit_progress_events(
-        self, function_name: str, ctx: ChatCompletionContext, sequence_number: int, output_index: int, item_id: str
+        self,
        function_name: str,
        ctx: ChatCompletionContext,
        sequence_number: int,
        output_index: int,
        item_id: str,
        mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] | None = None,
    ) -> AsyncIterator[ToolExecutionResult]:
        """Emit progress events for tool execution start."""
        # Emit in_progress event based on tool type (only for tools with specific streaming events)
        progress_event = None
-        if ctx.mcp_tool_to_server and function_name in ctx.mcp_tool_to_server:
+        if mcp_tool_to_server and function_name in mcp_tool_to_server:
            sequence_number += 1
            progress_event = OpenAIResponseObjectStreamResponseMcpCallInProgress(
                item_id=item_id,
@ -196,17 +204,21 @@ class ToolExecutor:
            yield ToolExecutionResult(stream_event=searching_event, sequence_number=sequence_number)
    async def _execute_tool(
-        self, function_name: str, tool_kwargs: dict, ctx: ChatCompletionContext
+        self,
        function_name: str,
        tool_kwargs: dict,
        ctx: ChatCompletionContext,
        mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] | None = None,
    ) -> tuple[Exception | None, any]:
        """Execute the tool and return error exception and result."""
        error_exc = None
        result = None
        try:
-            if ctx.mcp_tool_to_server and function_name in ctx.mcp_tool_to_server:
+            if mcp_tool_to_server and function_name in mcp_tool_to_server:
                from llama_stack.providers.utils.tools.mcp import invoke_mcp_tool
-                mcp_tool = ctx.mcp_tool_to_server[function_name]
+                mcp_tool = mcp_tool_to_server[function_name]
                result = await invoke_mcp_tool(
                    endpoint=mcp_tool.server_url,
                    headers=mcp_tool.headers or {},
@ -244,11 +256,12 @@ class ToolExecutor:
        output_index: int,
        item_id: str,
        has_error: bool,
        mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] | None = None,
    ) -> AsyncIterator[ToolExecutionResult]:
        """Emit completion or failure events for tool execution."""
        completion_event = None
-        if ctx.mcp_tool_to_server and function_name in ctx.mcp_tool_to_server:
+        if mcp_tool_to_server and function_name in mcp_tool_to_server:
            sequence_number += 1
            if has_error:
                completion_event = OpenAIResponseObjectStreamResponseMcpCallFailed(
@ -279,6 +292,7 @@ class ToolExecutor:
        error_exc: Exception | None,
        result: any,
        has_error: bool,
        mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP] | None = None,
    ) -> tuple[any, any]:
        """Build output and input messages from tool execution results."""
        from llama_stack.providers.utils.inference.prompt_adapter import (
@ -286,7 +300,7 @@ class ToolExecutor:
        )
        # Build output message
-        if function.name in ctx.mcp_tool_to_server:
+        if mcp_tool_to_server and function.name in mcp_tool_to_server:
            from llama_stack.apis.agents.openai_responses import (
                OpenAIResponseOutputMessageMCPCall,
            )
@ -295,7 +309,7 @@ class ToolExecutor:
                id=tool_call_id,
                arguments=function.arguments,
                name=function.name,
-                server_label=ctx.mcp_tool_to_server[function.name].server_label,
+                server_label=mcp_tool_to_server[function.name].server_label,
            )
            if error_exc:
                message.error = str(error_exc)
--- a/llama_stack/providers/inline/agents/meta_reference/responses/types.py
+++ b/llama_stack/providers/inline/agents/meta_reference/responses/types.py
@ -11,7 +11,6 @@ from pydantic import BaseModel
 from llama_stack.apis.agents.openai_responses import (
    OpenAIResponseInputTool,
    OpenAIResponseInputToolMCP,
    OpenAIResponseObjectStream,
    OpenAIResponseOutput,
 )
@ -57,6 +56,5 @@ class ChatCompletionContext(BaseModel):
    messages: list[OpenAIMessageParam]
    response_tools: list[OpenAIResponseInputTool] | None = None
    chat_tools: list[ChatCompletionToolParam] | None = None
    mcp_tool_to_server: dict[str, OpenAIResponseInputToolMCP]
    temperature: float | None
    response_format: OpenAIResponseFormatParam
--- a/tests/integration/non_ci/responses/test_responses.py
+++ b/tests/integration/non_ci/responses/test_responses.py
@ -610,6 +610,14 @@ def test_response_streaming_multi_turn_tool_execution(compat_client, text_model_
        mcp_in_progress_events = [chunk for chunk in chunks if chunk.type == "response.mcp_call.in_progress"]
        mcp_completed_events = [chunk for chunk in chunks if chunk.type == "response.mcp_call.completed"]
        # Should have MCP list tools streaming events
        mcp_list_tools_in_progress_events = [
            chunk for chunk in chunks if chunk.type == "response.mcp_list_tools.in_progress"
        ]
        mcp_list_tools_completed_events = [
            chunk for chunk in chunks if chunk.type == "response.mcp_list_tools.completed"
        ]
        # Verify we have substantial streaming activity (not just batch events)
        assert len(chunks) > 10, f"Expected rich streaming with many events, got only {len(chunks)} chunks"
@ -632,6 +640,14 @@ def test_response_streaming_multi_turn_tool_execution(compat_client, text_model_
        assert len(mcp_completed_events) > 0, (
            f"Expected response.mcp_call.completed events, got chunk types: {chunk_types}"
        )
        # Should have MCP list tools streaming events
        assert len(mcp_list_tools_in_progress_events) > 0, (
            f"Expected response.mcp_list_tools.in_progress events, got chunk types: {chunk_types}"
        )
        assert len(mcp_list_tools_completed_events) > 0, (
            f"Expected response.mcp_list_tools.completed events, got chunk types: {chunk_types}"
        )
        # MCP failed events are optional (only if errors occur)
        # Verify progress events have proper structure
@ -643,6 +659,17 @@ def test_response_streaming_multi_turn_tool_execution(compat_client, text_model_
        for completed_event in mcp_completed_events:
            assert hasattr(completed_event, "sequence_number"), "Completed event should have 'sequence_number' field"
        # Verify MCP list tools events have proper structure
        for list_tools_progress_event in mcp_list_tools_in_progress_events:
            assert hasattr(list_tools_progress_event, "sequence_number"), (
                "MCP list tools progress event should have 'sequence_number' field"
            )
        for list_tools_completed_event in mcp_list_tools_completed_events:
            assert hasattr(list_tools_completed_event, "sequence_number"), (
                "MCP list tools completed event should have 'sequence_number' field"
            )
        # Verify delta events have proper structure
        for delta_event in delta_events:
            assert hasattr(delta_event, "delta"), "Delta event should have 'delta' field"
@ -662,8 +689,12 @@ def test_response_streaming_multi_turn_tool_execution(compat_client, text_model_
            assert hasattr(added_event, "output_index"), "Added event should have 'output_index' field"
            assert hasattr(added_event, "sequence_number"), "Added event should have 'sequence_number' field"
            assert hasattr(added_event, "response_id"), "Added event should have 'response_id' field"
-            assert added_event.item.type in ["function_call", "mcp_call"], "Added item should be a tool call"
+            assert added_event.item.type in ["function_call", "mcp_call", "mcp_list_tools"], (
-            assert added_event.item.status == "in_progress", "Added item should be in progress"
+                "Added item should be a tool call or MCP list tools"
            )
            if added_event.item.type in ["function_call", "mcp_call"]:
                assert added_event.item.status == "in_progress", "Added tool call should be in progress"
            # Note: mcp_list_tools doesn't have a status field, it's implicitly completed when added
            assert added_event.response_id, "Response ID should not be empty"
            assert isinstance(added_event.output_index, int), "Output index should be integer"
            assert added_event.output_index >= 0, "Output index should be non-negative"
@ -674,10 +705,13 @@ def test_response_streaming_multi_turn_tool_execution(compat_client, text_model_
            assert hasattr(done_event, "output_index"), "Done event should have 'output_index' field"
            assert hasattr(done_event, "sequence_number"), "Done event should have 'sequence_number' field"
            assert hasattr(done_event, "response_id"), "Done event should have 'response_id' field"
-            assert done_event.item.type in ["function_call", "mcp_call"], "Done item should be a tool call"
+            assert done_event.item.type in ["function_call", "mcp_call", "mcp_list_tools"], (
-            # Note: MCP calls don't have a status field, only function calls do
+                "Done item should be a tool call or MCP list tools"
            )
            # Note: MCP calls and mcp_list_tools don't have a status field, only function calls do
            if done_event.item.type == "function_call":
                assert done_event.item.status == "completed", "Function call should be completed"
            # Note: mcp_call and mcp_list_tools don't have status fields
            assert done_event.response_id, "Response ID should not be empty"
            assert isinstance(done_event.output_index, int), "Output index should be integer"
            assert done_event.output_index >= 0, "Output index should be non-negative"