chore!: remove the agents (sessions and turns) API (#4055)

- Removes the deprecated agents (sessions and turns) API that was marked alpha in 0.3.0 - Cleans up unused imports and orphaned types after the API removal - Removes `SessionNotFoundError` and `AgentTurnInputType` which are no longer needed The agents API is completely superseded by the Responses + Conversations APIs, and the client SDK Agent class already uses those implementations. Corresponding client-side PR: https://github.com/llamastack/llama-stack-client-python/pull/295
2025-12-03 18:00:36 +00:00 · 2025-11-04 09:38:39 -08:00 · 2025-11-04 09:38:39 -08:00 · a8a8aa56c0
commit a8a8aa56c0
parent a6ddbae0ed
1037 changed files with 393 additions and 309806 deletions
--- a/src/llama_stack/providers/inline/agents/meta_reference/agent_instance.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/agent_instance.py
--- a/src/llama_stack/providers/inline/agents/meta_reference/agents.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/agents.py
@ -4,21 +4,9 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.

-import uuid
-from collections.abc import AsyncGenerator
-from datetime import UTC, datetime

 from llama_stack.apis.agents import (
-    Agent,
-    AgentConfig,
-    AgentCreateResponse,
    Agents,
-    AgentSessionCreateResponse,
-    AgentStepResponse,
-    AgentToolGroup,
-    AgentTurnCreateRequest,
-    AgentTurnResumeRequest,
-    Document,
    ListOpenAIResponseInputItem,
    ListOpenAIResponseObject,
    OpenAIDeleteResponseObject,
@ -26,19 +14,12 @@ from llama_stack.apis.agents import (
    OpenAIResponseInputTool,
    OpenAIResponseObject,
    Order,
-    Session,
-    Turn,
 )
 from llama_stack.apis.agents.agents import ResponseGuardrail
 from llama_stack.apis.agents.openai_responses import OpenAIResponsePrompt, OpenAIResponseText
-from llama_stack.apis.common.responses import PaginatedResponse
 from llama_stack.apis.conversations import Conversations
 from llama_stack.apis.inference import (
    Inference,
-    ToolConfig,
-    ToolResponse,
-    ToolResponseMessage,
-    UserMessage,
 )
 from llama_stack.apis.safety import Safety
 from llama_stack.apis.tools import ToolGroups, ToolRuntime
@ -46,12 +27,9 @@ from llama_stack.apis.vector_io import VectorIO
 from llama_stack.core.datatypes import AccessRule
 from llama_stack.log import get_logger
 from llama_stack.providers.utils.kvstore import InmemoryKVStoreImpl, kvstore_impl
-from llama_stack.providers.utils.pagination import paginate_records
 from llama_stack.providers.utils.responses.responses_store import ResponsesStore

-from .agent_instance import ChatAgent
 from .config import MetaReferenceAgentsImplConfig
-from .persistence import AgentInfo
 from .responses.openai_responses import OpenAIResponsesImpl

 logger = get_logger(name=__name__, category="agents::meta_reference")
@ -97,229 +75,6 @@ class MetaReferenceAgentsImpl(Agents):
            conversations_api=self.conversations_api,
        )

-    async def create_agent(
-        self,
-        agent_config: AgentConfig,
-    ) -> AgentCreateResponse:
-        agent_id = str(uuid.uuid4())
-        created_at = datetime.now(UTC)
-
-        agent_info = AgentInfo(
-            **agent_config.model_dump(),
-            created_at=created_at,
-        )
-
-        # Store the agent info
-        await self.persistence_store.set(
-            key=f"agent:{agent_id}",
-            value=agent_info.model_dump_json(),
-        )
-
-        return AgentCreateResponse(
-            agent_id=agent_id,
-        )
-
-    async def _get_agent_impl(self, agent_id: str) -> ChatAgent:
-        agent_info_json = await self.persistence_store.get(
-            key=f"agent:{agent_id}",
-        )
-        if not agent_info_json:
-            raise ValueError(f"Could not find agent info for {agent_id}")
-
-        try:
-            agent_info = AgentInfo.model_validate_json(agent_info_json)
-        except Exception as e:
-            raise ValueError(f"Could not validate agent info for {agent_id}") from e
-
-        return ChatAgent(
-            agent_id=agent_id,
-            agent_config=agent_info,
-            inference_api=self.inference_api,
-            safety_api=self.safety_api,
-            vector_io_api=self.vector_io_api,
-            tool_runtime_api=self.tool_runtime_api,
-            tool_groups_api=self.tool_groups_api,
-            persistence_store=(
-                self.persistence_store if agent_info.enable_session_persistence else self.in_memory_store
-            ),
-            created_at=agent_info.created_at.isoformat(),
-            policy=self.policy,
-            telemetry_enabled=self.telemetry_enabled,
-        )
-
-    async def create_agent_session(
-        self,
-        agent_id: str,
-        session_name: str,
-    ) -> AgentSessionCreateResponse:
-        agent = await self._get_agent_impl(agent_id)
-
-        session_id = await agent.create_session(session_name)
-        return AgentSessionCreateResponse(
-            session_id=session_id,
-        )
-
-    async def create_agent_turn(
-        self,
-        agent_id: str,
-        session_id: str,
-        messages: list[UserMessage | ToolResponseMessage],
-        stream: bool | None = False,
-        documents: list[Document] | None = None,
-        toolgroups: list[AgentToolGroup] | None = None,
-        tool_config: ToolConfig | None = None,
-    ) -> AsyncGenerator:
-        request = AgentTurnCreateRequest(
-            agent_id=agent_id,
-            session_id=session_id,
-            messages=messages,
-            stream=True,
-            toolgroups=toolgroups,
-            documents=documents,
-            tool_config=tool_config,
-        )
-        if stream:
-            return self._create_agent_turn_streaming(request)
-        else:
-            raise NotImplementedError("Non-streaming agent turns not yet implemented")
-
-    async def _create_agent_turn_streaming(
-        self,
-        request: AgentTurnCreateRequest,
-    ) -> AsyncGenerator:
-        agent = await self._get_agent_impl(request.agent_id)
-        async for event in agent.create_and_execute_turn(request):
-            yield event
-
-    async def resume_agent_turn(
-        self,
-        agent_id: str,
-        session_id: str,
-        turn_id: str,
-        tool_responses: list[ToolResponse],
-        stream: bool | None = False,
-    ) -> AsyncGenerator:
-        request = AgentTurnResumeRequest(
-            agent_id=agent_id,
-            session_id=session_id,
-            turn_id=turn_id,
-            tool_responses=tool_responses,
-            stream=stream,
-        )
-        if stream:
-            return self._continue_agent_turn_streaming(request)
-        else:
-            raise NotImplementedError("Non-streaming agent turns not yet implemented")
-
-    async def _continue_agent_turn_streaming(
-        self,
-        request: AgentTurnResumeRequest,
-    ) -> AsyncGenerator:
-        agent = await self._get_agent_impl(request.agent_id)
-        async for event in agent.resume_turn(request):
-            yield event
-
-    async def get_agents_turn(self, agent_id: str, session_id: str, turn_id: str) -> Turn:
-        agent = await self._get_agent_impl(agent_id)
-        turn = await agent.storage.get_session_turn(session_id, turn_id)
-        if turn is None:
-            raise ValueError(f"Turn {turn_id} not found in session {session_id}")
-        return turn
-
-    async def get_agents_step(self, agent_id: str, session_id: str, turn_id: str, step_id: str) -> AgentStepResponse:
-        turn = await self.get_agents_turn(agent_id, session_id, turn_id)
-        for step in turn.steps:
-            if step.step_id == step_id:
-                return AgentStepResponse(step=step)
-        raise ValueError(f"Provided step_id {step_id} could not be found")
-
-    async def get_agents_session(
-        self,
-        session_id: str,
-        agent_id: str,
-        turn_ids: list[str] | None = None,
-    ) -> Session:
-        agent = await self._get_agent_impl(agent_id)
-
-        session_info = await agent.storage.get_session_info(session_id)
-        if session_info is None:
-            raise ValueError(f"Session {session_id} not found")
-        turns = await agent.storage.get_session_turns(session_id)
-        if turn_ids:
-            turns = [turn for turn in turns if turn.turn_id in turn_ids]
-        return Session(
-            session_name=session_info.session_name,
-            session_id=session_id,
-            turns=turns,
-            started_at=session_info.started_at,
-        )
-
-    async def delete_agents_session(self, session_id: str, agent_id: str) -> None:
-        agent = await self._get_agent_impl(agent_id)
-
-        # Delete turns first, then the session
-        await agent.storage.delete_session_turns(session_id)
-        await agent.storage.delete_session(session_id)
-
-    async def delete_agent(self, agent_id: str) -> None:
-        # First get all sessions for this agent
-        agent = await self._get_agent_impl(agent_id)
-        sessions = await agent.storage.list_sessions()
-
-        # Delete all sessions
-        for session in sessions:
-            await self.delete_agents_session(agent_id, session.session_id)
-
-        # Finally delete the agent itself
-        await self.persistence_store.delete(f"agent:{agent_id}")
-
-    async def list_agents(self, start_index: int | None = None, limit: int | None = None) -> PaginatedResponse:
-        agent_keys = await self.persistence_store.keys_in_range("agent:", "agent:\xff")
-        agent_list: list[Agent] = []
-        for agent_key in agent_keys:
-            agent_id = agent_key.split(":")[1]
-
-            # Get the agent info using the key
-            agent_info_json = await self.persistence_store.get(agent_key)
-            if not agent_info_json:
-                logger.error(f"Could not find agent info for key {agent_key}")
-                continue
-
-            try:
-                agent_info = AgentInfo.model_validate_json(agent_info_json)
-                agent_list.append(
-                    Agent(
-                        agent_id=agent_id,
-                        agent_config=agent_info,
-                        created_at=agent_info.created_at,
-                    )
-                )
-            except Exception as e:
-                logger.error(f"Error parsing agent info for {agent_id}: {e}")
-                continue
-
-        # Convert Agent objects to dictionaries
-        agent_dicts = [agent.model_dump() for agent in agent_list]
-        return paginate_records(agent_dicts, start_index, limit)
-
-    async def get_agent(self, agent_id: str) -> Agent:
-        chat_agent = await self._get_agent_impl(agent_id)
-        agent = Agent(
-            agent_id=agent_id,
-            agent_config=chat_agent.agent_config,
-            created_at=datetime.fromisoformat(chat_agent.created_at),
-        )
-        return agent
-
-    async def list_agent_sessions(
-        self, agent_id: str, start_index: int | None = None, limit: int | None = None
-    ) -> PaginatedResponse:
-        agent = await self._get_agent_impl(agent_id)
-        sessions = await agent.storage.list_sessions()
-        # Convert Session objects to dictionaries
-        session_dicts = [session.model_dump() for session in sessions]
-        return paginate_records(session_dicts, start_index, limit)
-
    async def shutdown(self) -> None:
        pass

--- a/src/llama_stack/providers/inline/agents/meta_reference/persistence.py
+++ b/src/llama_stack/providers/inline/agents/meta_reference/persistence.py
@ -1,261 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-
-import json
-import uuid
-from dataclasses import dataclass
-from datetime import UTC, datetime
-
-from llama_stack.apis.agents import AgentConfig, Session, ToolExecutionStep, Turn
-from llama_stack.apis.common.errors import SessionNotFoundError
-from llama_stack.core.access_control.access_control import AccessDeniedError, is_action_allowed
-from llama_stack.core.access_control.conditions import User as ProtocolUser
-from llama_stack.core.access_control.datatypes import AccessRule, Action
-from llama_stack.core.datatypes import User
-from llama_stack.core.request_headers import get_authenticated_user
-from llama_stack.log import get_logger
-from llama_stack.providers.utils.kvstore import KVStore
-
-log = get_logger(name=__name__, category="agents::meta_reference")
-
-
-class AgentSessionInfo(Session):
-    # TODO: is this used anywhere?
-    vector_store_id: str | None = None
-    started_at: datetime
-    owner: User | None = None
-    identifier: str | None = None
-    type: str = "session"
-
-
-class AgentInfo(AgentConfig):
-    created_at: datetime
-
-
-@dataclass
-class SessionResource:
-    """Concrete implementation of ProtectedResource for session access control."""
-
-    type: str
-    identifier: str
-    owner: ProtocolUser  # Use the protocol type for structural compatibility
-
-
-class AgentPersistence:
-    def __init__(self, agent_id: str, kvstore: KVStore, policy: list[AccessRule]):
-        self.agent_id = agent_id
-        self.kvstore = kvstore
-        self.policy = policy
-
-    async def create_session(self, name: str) -> str:
-        session_id = str(uuid.uuid4())
-
-        # Get current user's auth attributes for new sessions
-        user = get_authenticated_user()
-
-        session_info = AgentSessionInfo(
-            session_id=session_id,
-            session_name=name,
-            started_at=datetime.now(UTC),
-            owner=user,
-            turns=[],
-            identifier=name,  # should this be qualified in any way?
-        )
-        # Only perform access control if we have an authenticated user
-        if user is not None and session_info.identifier is not None:
-            resource = SessionResource(
-                type=session_info.type,
-                identifier=session_info.identifier,
-                owner=user,
-            )
-            if not is_action_allowed(self.policy, Action.CREATE, resource, user):
-                raise AccessDeniedError(Action.CREATE, resource, user)
-
-        await self.kvstore.set(
-            key=f"session:{self.agent_id}:{session_id}",
-            value=session_info.model_dump_json(),
-        )
-        return session_id
-
-    async def get_session_info(self, session_id: str) -> AgentSessionInfo | None:
-        value = await self.kvstore.get(
-            key=f"session:{self.agent_id}:{session_id}",
-        )
-        if not value:
-            raise SessionNotFoundError(session_id)
-
-        session_info = AgentSessionInfo(**json.loads(value))
-
-        # Check access to session
-        if not self._check_session_access(session_info):
-            return None
-
-        return session_info
-
-    def _check_session_access(self, session_info: AgentSessionInfo) -> bool:
-        """Check if current user has access to the session."""
-        # Handle backward compatibility for old sessions without access control
-        if not hasattr(session_info, "access_attributes") and not hasattr(session_info, "owner"):
-            return True
-
-        # Get current user - if None, skip access control (e.g., in tests)
-        user = get_authenticated_user()
-        if user is None:
-            return True
-
-        # Access control requires identifier and owner to be set
-        if session_info.identifier is None or session_info.owner is None:
-            return True
-
-        # At this point, both identifier and owner are guaranteed to be non-None
-        resource = SessionResource(
-            type=session_info.type,
-            identifier=session_info.identifier,
-            owner=session_info.owner,
-        )
-        return is_action_allowed(self.policy, Action.READ, resource, user)
-
-    async def get_session_if_accessible(self, session_id: str) -> AgentSessionInfo | None:
-        """Get session info if the user has access to it. For internal use by sub-session methods."""
-        session_info = await self.get_session_info(session_id)
-        if not session_info:
-            return None
-
-        return session_info
-
-    async def add_vector_db_to_session(self, session_id: str, vector_store_id: str):
-        session_info = await self.get_session_if_accessible(session_id)
-        if session_info is None:
-            raise SessionNotFoundError(session_id)
-
-        session_info.vector_store_id = vector_store_id
-        await self.kvstore.set(
-            key=f"session:{self.agent_id}:{session_id}",
-            value=session_info.model_dump_json(),
-        )
-
-    async def add_turn_to_session(self, session_id: str, turn: Turn):
-        if not await self.get_session_if_accessible(session_id):
-            raise SessionNotFoundError(session_id)
-
-        await self.kvstore.set(
-            key=f"session:{self.agent_id}:{session_id}:{turn.turn_id}",
-            value=turn.model_dump_json(),
-        )
-
-    async def get_session_turns(self, session_id: str) -> list[Turn]:
-        if not await self.get_session_if_accessible(session_id):
-            raise SessionNotFoundError(session_id)
-
-        values = await self.kvstore.values_in_range(
-            start_key=f"session:{self.agent_id}:{session_id}:",
-            end_key=f"session:{self.agent_id}:{session_id}:\xff\xff\xff\xff",
-        )
-        turns = []
-        for value in values:
-            try:
-                turn = Turn(**json.loads(value))
-                turns.append(turn)
-            except Exception as e:
-                log.error(f"Error parsing turn: {e}")
-                continue
-
-        # The kvstore does not guarantee order, so we sort by started_at
-        # to ensure consistent ordering of turns.
-        turns.sort(key=lambda t: t.started_at)
-
-        return turns
-
-    async def get_session_turn(self, session_id: str, turn_id: str) -> Turn | None:
-        if not await self.get_session_if_accessible(session_id):
-            raise SessionNotFoundError(session_id)
-
-        value = await self.kvstore.get(
-            key=f"session:{self.agent_id}:{session_id}:{turn_id}",
-        )
-        if not value:
-            return None
-        return Turn(**json.loads(value))
-
-    async def set_in_progress_tool_call_step(self, session_id: str, turn_id: str, step: ToolExecutionStep):
-        if not await self.get_session_if_accessible(session_id):
-            raise SessionNotFoundError(session_id)
-
-        await self.kvstore.set(
-            key=f"in_progress_tool_call_step:{self.agent_id}:{session_id}:{turn_id}",
-            value=step.model_dump_json(),
-        )
-
-    async def get_in_progress_tool_call_step(self, session_id: str, turn_id: str) -> ToolExecutionStep | None:
-        if not await self.get_session_if_accessible(session_id):
-            return None
-
-        value = await self.kvstore.get(
-            key=f"in_progress_tool_call_step:{self.agent_id}:{session_id}:{turn_id}",
-        )
-        return ToolExecutionStep(**json.loads(value)) if value else None
-
-    async def set_num_infer_iters_in_turn(self, session_id: str, turn_id: str, num_infer_iters: int):
-        if not await self.get_session_if_accessible(session_id):
-            raise SessionNotFoundError(session_id)
-
-        await self.kvstore.set(
-            key=f"num_infer_iters_in_turn:{self.agent_id}:{session_id}:{turn_id}",
-            value=str(num_infer_iters),
-        )
-
-    async def get_num_infer_iters_in_turn(self, session_id: str, turn_id: str) -> int | None:
-        if not await self.get_session_if_accessible(session_id):
-            return None
-
-        value = await self.kvstore.get(
-            key=f"num_infer_iters_in_turn:{self.agent_id}:{session_id}:{turn_id}",
-        )
-        return int(value) if value else None
-
-    async def list_sessions(self) -> list[Session]:
-        values = await self.kvstore.values_in_range(
-            start_key=f"session:{self.agent_id}:",
-            end_key=f"session:{self.agent_id}:\xff\xff\xff\xff",
-        )
-        sessions = []
-        for value in values:
-            try:
-                data = json.loads(value)
-                if "turn_id" in data:
-                    continue
-
-                session_info = Session(**data)
-                sessions.append(session_info)
-            except Exception as e:
-                log.error(f"Error parsing session info: {e}")
-                continue
-        return sessions
-
-    async def delete_session_turns(self, session_id: str) -> None:
-        """Delete all turns and their associated data for a session.
-
-        Args:
-            session_id: The ID of the session whose turns should be deleted.
-        """
-        turns = await self.get_session_turns(session_id)
-        for turn in turns:
-            await self.kvstore.delete(key=f"session:{self.agent_id}:{session_id}:{turn.turn_id}")
-
-    async def delete_session(self, session_id: str) -> None:
-        """Delete a session and all its associated turns.
-
-        Args:
-            session_id: The ID of the session to delete.
-
-        Raises:
-            ValueError: If the session does not exist.
-        """
-        session_info = await self.get_session_info(session_id)
-        if session_info is None:
-            raise SessionNotFoundError(session_id)
-
-        await self.kvstore.delete(key=f"session:{self.agent_id}:{session_id}")
--- a/src/llama_stack/providers/inline/eval/meta_reference/eval.py
+++ b/src/llama_stack/providers/inline/eval/meta_reference/eval.py
@ -8,7 +8,7 @@ from typing import Any

 from tqdm import tqdm

-from llama_stack.apis.agents import Agents, StepType
+from llama_stack.apis.agents import Agents
 from llama_stack.apis.benchmarks import Benchmark
 from llama_stack.apis.datasetio import DatasetIO
 from llama_stack.apis.datasets import Datasets
@ -18,13 +18,9 @@ from llama_stack.apis.inference import (
    OpenAICompletionRequestWithExtraBody,
    OpenAISystemMessageParam,
    OpenAIUserMessageParam,
-    UserMessage,
 )
 from llama_stack.apis.scoring import Scoring
 from llama_stack.providers.datatypes import BenchmarksProtocolPrivate
-from llama_stack.providers.inline.agents.meta_reference.agent_instance import (
-    MEMORY_QUERY_TOOL,
-)
 from llama_stack.providers.utils.common.data_schema_validator import ColumnName
 from llama_stack.providers.utils.kvstore import kvstore_impl

@ -118,49 +114,6 @@ class MetaReferenceEvalImpl(
        self.jobs[job_id] = res
        return Job(job_id=job_id, status=JobStatus.completed)

-    async def _run_agent_generation(
-        self, input_rows: list[dict[str, Any]], benchmark_config: BenchmarkConfig
-    ) -> list[dict[str, Any]]:
-        candidate = benchmark_config.eval_candidate
-        create_response = await self.agents_api.create_agent(candidate.config)
-        agent_id = create_response.agent_id
-
-        generations = []
-        for i, x in tqdm(enumerate(input_rows)):
-            assert ColumnName.chat_completion_input.value in x, "Invalid input row"
-            input_messages = json.loads(x[ColumnName.chat_completion_input.value])
-            input_messages = [UserMessage(**x) for x in input_messages if x["role"] == "user"]
-
-            # NOTE: only single-turn agent generation is supported. Create a new session for each input row
-            session_create_response = await self.agents_api.create_agent_session(agent_id, f"session-{i}")
-            session_id = session_create_response.session_id
-
-            turn_request = dict(
-                agent_id=agent_id,
-                session_id=session_id,
-                messages=input_messages,
-                stream=True,
-            )
-            turn_response = [chunk async for chunk in await self.agents_api.create_agent_turn(**turn_request)]
-            final_event = turn_response[-1].event.payload
-
-            # check if there's a memory retrieval step and extract the context
-            memory_rag_context = None
-            for step in final_event.turn.steps:
-                if step.step_type == StepType.tool_execution.value:
-                    for tool_response in step.tool_responses:
-                        if tool_response.tool_name == MEMORY_QUERY_TOOL:
-                            memory_rag_context = " ".join(x.text for x in tool_response.content)
-
-            agent_generation = {}
-            agent_generation[ColumnName.generated_answer.value] = final_event.turn.output_message.content
-            if memory_rag_context:
-                agent_generation[ColumnName.context.value] = memory_rag_context
-
-            generations.append(agent_generation)
-
-        return generations
-
    async def _run_model_generation(
        self, input_rows: list[dict[str, Any]], benchmark_config: BenchmarkConfig
    ) -> list[dict[str, Any]]:
@ -215,9 +168,8 @@ class MetaReferenceEvalImpl(
        benchmark_config: BenchmarkConfig,
    ) -> EvaluateResponse:
        candidate = benchmark_config.eval_candidate
-        if candidate.type == "agent":
-            generations = await self._run_agent_generation(input_rows, benchmark_config)
-        elif candidate.type == "model":
+        # Agent evaluation removed
+        if candidate.type == "model":
            generations = await self._run_model_generation(input_rows, benchmark_config)
        else:
            raise ValueError(f"Invalid candidate type: {candidate.type}")