Litellm support in llama stack:

2025-02-03 06:15:09 -08:00
6 changed files with 359 additions and 0 deletions
--- a/llama_stack/providers/registry/inference.py
+++ b/llama_stack/providers/registry/inference.py
@ -164,6 +164,15 @@ def available_providers() -> List[ProviderSpec]:
                provider_data_validator="llama_stack.providers.remote.inference.groq.GroqProviderDataValidator",
            ),
        ),
        remote_provider_spec(
            api=Api.inference,
            adapter=AdapterSpec(
                adapter_type="litellm",
                pip_packages=["litellm"],
                module="llama_stack.providers.remote.inference.litellm",
                config_class="llama_stack.providers.remote.inference.litellm.LitellmConfig",
            ),
        ),
        remote_provider_spec(
            api=Api.inference,
            adapter=AdapterSpec(
--- a/llama_stack/providers/remote/inference/litellm/init.py
+++ b/llama_stack/providers/remote/inference/litellm/init.py
@ -0,0 +1,19 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from pydantic import BaseModel
 from llama_stack.apis.inference import Inference
 from .config import LitellmConfig
 async def get_adapter_impl(config: LitellmConfig, _deps) -> Inference:
    # import dynamically so the import is used only when it is needed
    from .litellm import LitellmInferenceAdapter
    assert isinstance(config, LitellmConfig), f"Unexpected config type: {type(config)}"
    adapter = LitellmInferenceAdapter(config)
    return adapter
--- a/llama_stack/providers/remote/inference/litellm/config.py
+++ b/llama_stack/providers/remote/inference/litellm/config.py
@ -0,0 +1,19 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from typing import Optional
 from pydantic import BaseModel, Field
 class LitellmConfig(BaseModel):
    openai_api_key: Optional[str] = Field(
        default=None,
        description="The access key to use for openai. Default use environment variable: OPENAI_API_KEY",
    )
    llm_provider: Optional[str] = Field(
        default="openai",
        description="The provider to use. Default use environment variable: LLM_PROVIDER",
    )
--- a/llama_stack/providers/remote/inference/litellm/litellm.py
+++ b/llama_stack/providers/remote/inference/litellm/litellm.py
@ -0,0 +1,116 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 import os
 from typing import AsyncIterator, List, Optional, Union, Any
 from litellm import completion as litellm_completion
 from litellm.types.utils import ModelResponse
 from llama_models.datatypes import SamplingParams
 from llama_models.llama3.api.datatypes import ToolDefinition, ToolPromptFormat, StopReason
 from llama_stack.apis.inference import (
    ChatCompletionResponse,
    ChatCompletionResponseStreamChunk,
    CompletionResponse,
    CompletionMessage,
    CompletionResponseStreamChunk,
    EmbeddingsResponse,
    Inference,
    InterleavedContent,
    LogProbConfig,
    Message,
    ResponseFormat,
    ToolChoice,
 )
 # from llama_stack.distribution.request_headers import NeedsRequestProviderData
 from llama_stack.providers.remote.inference.litellm.config import LitellmConfig
 from llama_stack.providers.utils.inference.model_registry import (
    build_model_alias,
    ModelRegistryHelper,
 )
 _MODEL_ALIASES = [
    build_model_alias(
        "gpt-4o",  # provider_model_id
        "gpt-4o",  # model_descriptor
    ),
 ]
 class LitellmInferenceAdapter(Inference, ModelRegistryHelper):
    _config: LitellmConfig
    def __init__(self, config: LitellmConfig):
        ModelRegistryHelper.__init__(self, model_aliases=_MODEL_ALIASES)
        self._config = config
    def completion(
        self,
        model_id: str,
        content: InterleavedContent,
        sampling_params: Optional[SamplingParams] = SamplingParams(),
        response_format: Optional[ResponseFormat] = None,
        stream: Optional[bool] = False,
        logprobs: Optional[LogProbConfig] = None,
    ) -> Union[CompletionResponse, AsyncIterator[CompletionResponseStreamChunk]]:
        # litellm doesn't support non-chat completion as of time of writing
        raise NotImplementedError()
    def _messages_to_litellm_messages(
        self,
        messages: List[Message],
    ) -> list[dict[str, Any]]:
        litellm_messages = []
        for message in messages:
            lm_message = {
                "role": message.role,
                "content": message.content,
            }
            litellm_messages.append(lm_message)
        return litellm_messages
    def _convert_to_llama_stack_response(
        self,
        litellm_response: ModelResponse,
    ) -> ChatCompletionResponse:
        assert litellm_response.choices is not None
        assert len(litellm_response.choices) == 1
        message = litellm_response.choices[0].message
        completion_message = CompletionMessage(content=message["content"], role=message["role"], stop_reason=StopReason.end_of_message, tool_calls=[])
        return ChatCompletionResponse(completion_message=completion_message)
    async def chat_completion(
        self,
        model_id: str,
        messages: List[Message],
        sampling_params: Optional[SamplingParams] = SamplingParams(),
        response_format: Optional[ResponseFormat] = None,
        tools: Optional[List[ToolDefinition]] = None,
        tool_choice: Optional[ToolChoice] = ToolChoice.auto,
        tool_prompt_format: Optional[ToolPromptFormat] = None,
        stream: Optional[bool] = False,
        logprobs: Optional[LogProbConfig] = None,
    ) -> Union[
        ChatCompletionResponse, AsyncIterator[ChatCompletionResponseStreamChunk]
    ]:
        assert stream is False, "streaming not supported"
        model_id = self.get_provider_model_id(model_id)
        response = litellm_completion(
            model=model_id,
            custom_llm_provider=self._config.llm_provider,
            messages=self._messages_to_litellm_messages(messages),
            api_key=self._config.openai_api_key,
        )
        return self._convert_to_llama_stack_response(response)
    async def embeddings(
        self,
        model_id: str,
        contents: List[InterleavedContent],
    ) -> EmbeddingsResponse:
        raise NotImplementedError()
--- a/llama_stack_server-run.yaml
+++ b/llama_stack_server-run.yaml
@ -0,0 +1,79 @@
 version: '2'
 image_name: llama_stack_server
 container_image: null
 apis:
 - inference
 - safety
 - agents
 - vector_io
 - datasetio
 - scoring
 - eval
 - post_training
 - tool_runtime
 - telemetry
 providers:
  inference:
  - provider_id: litellm
    provider_type: remote::litellm
    config:
      openai_api_key: ???
  safety:
  - provider_id: llama-guard
    provider_type: inline::llama-guard
    config: {}
  agents:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      persistence_store:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/llama_stack_server}/agents_store.db
  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
      kvstore:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/llama_stack_server}/faiss_store.db
  datasetio:
  - provider_id: localfs
    provider_type: inline::localfs
    config: {}
  scoring:
  - provider_id: basic
    provider_type: inline::basic
    config: {}
  eval:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config: {}
  post_training:
  - provider_id: torchtune
    provider_type: inline::torchtune
    config: {}
  tool_runtime:
  - provider_id: rag-runtime
    provider_type: inline::rag-runtime
    config: {}
  telemetry:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      service_name: ${env.OTEL_SERVICE_NAME:llama-stack}
      sinks: ${env.TELEMETRY_SINKS:console,sqlite}
      sqlite_db_path: ${env.SQLITE_DB_PATH:~/.llama/distributions/llama_stack_server/trace_store.db}
 metadata_store: null
 models:
 - metadata: {}
  model_id: gpt-4o
  provider_id: litellm
  model_type: llm
 shields: []
 vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
 tool_groups: []
--- a/meta-reference-gpu-run.yaml
+++ b/meta-reference-gpu-run.yaml
@ -0,0 +1,117 @@
 version: '2'
 image_name: meta-reference-gpu
 apis:
 - agents
 - datasetio
 - eval
 - inference
 - safety
 - scoring
 - telemetry
 - tool_runtime
 - vector_io
 providers:
  inference:
  - provider_id: meta-reference-inference
    provider_type: inline::meta-reference
    config:
      model: Llama3.3-70B-Instruct
      max_seq_len: 64000
      checkpoint_dir: ${env.INFERENCE_CHECKPOINT_DIR:null}
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
  vector_io:
  - provider_id: faiss
    provider_type: inline::faiss
    config:
      kvstore:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/meta-reference-gpu}/faiss_store.db
  safety:
  - provider_id: llama-guard
    provider_type: inline::llama-guard
    config: {}
  agents:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      persistence_store:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/meta-reference-gpu}/agents_store.db
  telemetry:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      service_name: ${env.OTEL_SERVICE_NAME:llama-stack}
      sinks: ${env.TELEMETRY_SINKS:console,sqlite}
      sqlite_db_path: ${env.SQLITE_DB_PATH:~/.llama/distributions/meta-reference-gpu/trace_store.db}
  eval:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config: {}
  datasetio:
  - provider_id: huggingface
    provider_type: remote::huggingface
    config: {}
  - provider_id: localfs
    provider_type: inline::localfs
    config: {}
  scoring:
  - provider_id: basic
    provider_type: inline::basic
    config: {}
  - provider_id: llm-as-judge
    provider_type: inline::llm-as-judge
    config: {}
  - provider_id: braintrust
    provider_type: inline::braintrust
    config:
      openai_api_key: ${env.OPENAI_API_KEY:}
  tool_runtime:
  - provider_id: brave-search
    provider_type: remote::brave-search
    config:
      api_key: ${env.BRAVE_SEARCH_API_KEY:}
      max_results: 3
  - provider_id: tavily-search
    provider_type: remote::tavily-search
    config:
      api_key: ${env.TAVILY_SEARCH_API_KEY:}
      max_results: 3
  - provider_id: code-interpreter
    provider_type: inline::code-interpreter
    config: {}
  - provider_id: rag-runtime
    provider_type: inline::rag-runtime
    config: {}
  - provider_id: model-context-protocol
    provider_type: remote::model-context-protocol
    config: {}
 metadata_store:
  type: sqlite
  db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/meta-reference-gpu}/registry.db
 models:
 - metadata: {}
  model_id: Llama3.3-70B-Instruct
  provider_id: meta-reference-inference
  model_type: llm
 - metadata:
    embedding_dimension: 384
  model_id: all-MiniLM-L6-v2
  provider_id: sentence-transformers
  model_type: embedding
 shields: []
 vector_dbs: []
 datasets: []
 scoring_fns: []
 eval_tasks: []
 tool_groups:
 - toolgroup_id: builtin::websearch
  provider_id: tavily-search
 - toolgroup_id: builtin::rag
  provider_id: rag-runtime
 - toolgroup_id: builtin::code_interpreter
  provider_id: code-interpreter