portkey integration v2

2025-12-17 22:29:47 +00:00 · 2024-12-20 17:31:09 +05:30 · 2024-12-20 17:31:09 +05:30 · 71f27f6676
commit 71f27f6676
parent 7ece0d4d8b
6 changed files with 266 additions and 0 deletions
--- a/llama_stack/providers/tests/inference/fixtures.py
+++ b/llama_stack/providers/tests/inference/fixtures.py
@ -22,6 +22,7 @@ from llama_stack.providers.remote.inference.fireworks import FireworksImplConfig
 from llama_stack.providers.remote.inference.nvidia import NVIDIAConfig
 from llama_stack.providers.remote.inference.ollama import OllamaImplConfig
 from llama_stack.providers.remote.inference.tgi import TGIImplConfig
 from llama_stack.providers.remote.inference.portkey import PortkeyImplConfig
 from llama_stack.providers.remote.inference.together import TogetherImplConfig
 from llama_stack.providers.remote.inference.vllm import VLLMInferenceAdapterConfig
 from llama_stack.providers.tests.resolver import construct_stack_for_test
@ -82,6 +83,21 @@ def inference_cerebras() -> ProviderFixture:
        ],
    )
@pytest.fixture(scope="session")
 def inference_cerebras() -> ProviderFixture:
    return ProviderFixture(
        providers=[
            Provider(
                provider_id="portkey",
                provider_type="remote::portkey",
                config=CerebrasImplConfig(
                    api_key=get_env_or_fail("PORTKEY_API_KEY"),
                ).model_dump(),
            )
        ],
    )
@pytest.fixture(scope="session")
 def inference_ollama(inference_model) -> ProviderFixture:
--- a/llama_stack/templates/portkey/init.py
+++ b/llama_stack/templates/portkey/init.py
@ -0,0 +1,7 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from .cerebras import get_distribution_template  # noqa: F401
--- a/llama_stack/templates/portkey/build.yaml
+++ b/llama_stack/templates/portkey/build.yaml
@ -0,0 +1,17 @@
 version: '2'
 name: cerebras
 distribution_spec:
  description: Use Cerebras for running LLM inference
  docker_image: null
  providers:
    inference:
    - remote::cerebras
    safety:
    - inline::llama-guard
    memory:
    - inline::meta-reference
    agents:
    - inline::meta-reference
    telemetry:
    - inline::meta-reference
 image_type: conda
--- a/llama_stack/templates/portkey/doc_template.md
+++ b/llama_stack/templates/portkey/doc_template.md
@ -0,0 +1,60 @@
 # Cerebras Distribution
 The `llamastack/distribution-{{ name }}` distribution consists of the following provider configurations.
 {{ providers_table }}
 {% if run_config_env_vars %}
 ### Environment Variables
 The following environment variables can be configured:
 {% for var, (default_value, description) in run_config_env_vars.items() %}
 - `{{ var }}`: {{ description }} (default: `{{ default_value }}`)
 {% endfor %}
 {% endif %}
 {% if default_models %}
 ### Models
 The following models are available by default:
 {% for model in default_models %}
 - `{{ model.model_id }} ({{ model.provider_model_id }})`
 {% endfor %}
 {% endif %}
 ### Prerequisite: API Keys
 Make sure you have access to a Cerebras API Key. You can get one by visiting [cloud.cerebras.ai](https://cloud.cerebras.ai/).
 ## Running Llama Stack with Cerebras
 You can do this via Conda (build code) or Docker which has a pre-built image.
 ### Via Docker
 This method allows you to get started quickly without having to build the distribution code.
 ```bash
 LLAMA_STACK_PORT=5001
 docker run \
  -it \
  -p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
  -v ./run.yaml:/root/my-run.yaml \
  llamastack/distribution-{{ name }} \
  --yaml-config /root/my-run.yaml \
  --port $LLAMA_STACK_PORT \
  --env CEREBRAS_API_KEY=$CEREBRAS_API_KEY
 ```
 ### Via Conda
 ```bash
 llama stack build --template cerebras --image-type conda
 llama stack run ./run.yaml \
  --port 5001 \
  --env CEREBRAS_API_KEY=$CEREBRAS_API_KEY
 ```
--- a/llama_stack/templates/portkey/portkey.py
+++ b/llama_stack/templates/portkey/portkey.py
@ -0,0 +1,89 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 from pathlib import Path
 from llama_models.sku_list import all_registered_models
 from llama_stack.apis.models.models import ModelType
 from llama_stack.distribution.datatypes import ModelInput, Provider, ShieldInput
 from llama_stack.providers.inline.inference.sentence_transformers import (
    SentenceTransformersInferenceConfig,
 )
 from llama_stack.providers.remote.inference.cerebras import CerebrasImplConfig
 from llama_stack.providers.remote.inference.cerebras.cerebras import model_aliases
 from llama_stack.templates.template import DistributionTemplate, RunConfigSettings
 def get_distribution_template() -> DistributionTemplate:
    providers = {
        "inference": ["remote::cerebras"],
        "safety": ["inline::llama-guard"],
        "memory": ["inline::meta-reference"],
        "agents": ["inline::meta-reference"],
        "telemetry": ["inline::meta-reference"],
    }
    inference_provider = Provider(
        provider_id="cerebras",
        provider_type="remote::cerebras",
        config=CerebrasImplConfig.sample_run_config(),
    )
    embedding_provider = Provider(
        provider_id="sentence-transformers",
        provider_type="inline::sentence-transformers",
        config=SentenceTransformersInferenceConfig.sample_run_config(),
    )
    core_model_to_hf_repo = {
        m.descriptor(): m.huggingface_repo for m in all_registered_models()
    }
    default_models = [
        ModelInput(
            model_id=core_model_to_hf_repo[m.llama_model],
            provider_model_id=m.provider_model_id,
            provider_id="cerebras",
        )
        for m in model_aliases
    ]
    embedding_model = ModelInput(
        model_id="all-MiniLM-L6-v2",
        provider_id="sentence-transformers",
        model_type=ModelType.embedding,
        metadata={
            "embedding_dimension": 384,
        },
    )
    return DistributionTemplate(
        name="cerebras",
        distro_type="self_hosted",
        description="Use Cerebras for running LLM inference",
        docker_image=None,
        template_path=Path(__file__).parent / "doc_template.md",
        providers=providers,
        default_models=default_models,
        run_configs={
            "run.yaml": RunConfigSettings(
                provider_overrides={
                    "inference": [inference_provider, embedding_provider],
                },
                default_models=default_models + [embedding_model],
                default_shields=[ShieldInput(shield_id="meta-llama/Llama-Guard-3-8B")],
            ),
        },
        run_config_env_vars={
            "LLAMASTACK_PORT": (
                "5001",
                "Port for the Llama Stack distribution server",
            ),
            "CEREBRAS_API_KEY": (
                "",
                "Cerebras API Key",
            ),
        },
    )
--- a/llama_stack/templates/portkey/run.yaml
+++ b/llama_stack/templates/portkey/run.yaml
@ -0,0 +1,77 @@
 version: '2'
 image_name: portkey
 docker_image: null
 conda_env: portkey
 apis:
 - agents
 - inference
 - memory
 - safety
 - telemetry
 providers:
  inference:
  - provider_id: portkey
    provider_type: remote::portkey
    config:
      base_url: https://api.portkey.ai/v1
      api_key: ${env.PORTKEY_API_KEY}
  - provider_id: sentence-transformers
    provider_type: inline::sentence-transformers
    config: {}
  safety:
  - provider_id: llama-guard
    provider_type: inline::llama-guard
    config: {}
  memory:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      kvstore:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/portkey}/faiss_store.db
  agents:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      persistence_store:
        type: sqlite
        namespace: null
        db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/portkey}/agents_store.db
  telemetry:
  - provider_id: meta-reference
    provider_type: inline::meta-reference
    config:
      service_name: ${env.OTEL_SERVICE_NAME:llama-stack}
      sinks: ${env.TELEMETRY_SINKS:console,sqlite}
      sqlite_db_path: ${env.SQLITE_DB_PATH:~/.llama/distributions/portkey/trace_store.db}
 metadata_store:
  namespace: null
  type: sqlite
  db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/portkey}/registry.db
 models:
 - metadata: {}
  model_id: meta-llama/Llama-3.1-8B-Instruct
  provider_id: portkey
  provider_model_id: llama3.1-8b
  model_type: llm
 - metadata: {}
  model_id: meta-llama/Llama-3.3-70B-Instruct
  provider_id: portkey
  provider_model_id: llama-3.3-70b
  model_type: llm
 - metadata:
    embedding_dimension: 384
  model_id: all-MiniLM-L6-v2
  provider_id: sentence-transformers
  provider_model_id: null
  model_type: embedding
 shields:
 - params: null
  shield_id: meta-llama/Llama-Guard-3-8B
  provider_id: null
  provider_shield_id: null
 memory_banks: []
 datasets: []
 scoring_fns: []
 eval_tasks: []