phoenix-oss/llama-stack-mirror

Fork 1

mirror of https://github.com/meta-llama/llama-stack.git synced 2025-10-21 16:07:16 +00:00

ehhuang 444f6c88f3

SqlStore Integration Tests / test-postgres (3.12) (push) Failing after 0s

Details

Integration Auth Tests / test-matrix (oauth2_token) (push) Failing after 1s

Details

Integration Tests (Replay) / Integration Tests (, , , client=, ) (push) Failing after 3s

Details

SqlStore Integration Tests / test-postgres (3.13) (push) Failing after 6s

Details

Vector IO Integration Tests / test-matrix (push) Failing after 4s

Details

Python Package Build Test / build (3.13) (push) Failing after 1s

Details

Test Llama Stack Build / generate-matrix (push) Successful in 5s

Details

Test External Providers Installed via Module / test-external-providers-from-module (venv) (push) Has been skipped

Details

Test Llama Stack Build / build-single-provider (push) Failing after 3s

Details

Test Llama Stack Build / build-custom-container-distribution (push) Failing after 3s

Details

Test llama stack list-deps / generate-matrix (push) Successful in 4s

Details

Test llama stack list-deps / show-single-provider (push) Failing after 3s

Details

Test llama stack list-deps / list-deps-from-config (push) Failing after 3s

Details

API Conformance Tests / check-schema-compatibility (push) Successful in 11s

Details

Test External API and Providers / test-external (venv) (push) Failing after 4s

Details

Unit Tests / unit-tests (3.12) (push) Failing after 4s

Details

Test Llama Stack Build / build (push) Failing after 3s

Details

Unit Tests / unit-tests (3.13) (push) Failing after 4s

Details

Python Package Build Test / build (3.12) (push) Failing after 20s

Details

Test Llama Stack Build / build-ubi9-container-distribution (push) Failing after 23s

Details

Test llama stack list-deps / list-deps (push) Failing after 18s

Details

UI Tests / ui-tests (22) (push) Successful in 57s

Details

Pre-commit / pre-commit (push) Successful in 1m52s

Details

chore: remove build.py (#3869 )

# What does this PR do?


## Test Plan
CI

2025-10-20 16:28:15 -07:00

3.2 KiB

Raw Blame History

NVIDIA Post-Training Provider for LlamaStack

This provider enables fine-tuning of LLMs using NVIDIA's NeMo Customizer service.

Features

Supervised fine-tuning of Llama models
LoRA fine-tuning support
Job management and status tracking

Getting Started

Prerequisites

LlamaStack with NVIDIA configuration
Access to Hosted NVIDIA NeMo Customizer service
Dataset registered in the Hosted NVIDIA NeMo Customizer service
Base model downloaded and available in the Hosted NVIDIA NeMo Customizer service

Setup

Build the NVIDIA environment:

uv run llama stack list-deps nvidia | xargs -L1 uv pip install

Basic Usage using the LlamaStack Python Client

Create Customization Job

Initialize the client

import os

os.environ["NVIDIA_API_KEY"] = "your-api-key"
os.environ["NVIDIA_CUSTOMIZER_URL"] = "http://nemo.test"
os.environ["NVIDIA_DATASET_NAMESPACE"] = "default"
os.environ["NVIDIA_PROJECT_ID"] = "test-project"
os.environ["NVIDIA_OUTPUT_MODEL_DIR"] = "test-example-model@v1"

from llama_stack.core.library_client import LlamaStackAsLibraryClient

client = LlamaStackAsLibraryClient("nvidia")
client.initialize()

Configure fine-tuning parameters

from llama_stack_client.types.post_training_supervised_fine_tune_params import (
    TrainingConfig,
    TrainingConfigDataConfig,
    TrainingConfigOptimizerConfig,
)
from llama_stack_client.types.algorithm_config_param import LoraFinetuningConfig

Set up LoRA configuration

algorithm_config = LoraFinetuningConfig(type="LoRA", adapter_dim=16)

Configure training data

data_config = TrainingConfigDataConfig(
    dataset_id="your-dataset-id",  # Use client.datasets.list() to see available datasets
    batch_size=16,
)

Configure optimizer

optimizer_config = TrainingConfigOptimizerConfig(
    lr=0.0001,
)

Set up training configuration

training_config = TrainingConfig(
    n_epochs=2,
    data_config=data_config,
    optimizer_config=optimizer_config,
)

Start fine-tuning job

training_job = client.post_training.supervised_fine_tune(
    job_uuid="unique-job-id",
    model="meta-llama/Llama-3.1-8B-Instruct",
    checkpoint_dir="",
    algorithm_config=algorithm_config,
    training_config=training_config,
    logger_config={},
    hyperparam_search_config={},
)

List all jobs

jobs = client.post_training.job.list()

Check job status

job_status = client.post_training.job.status(job_uuid="your-job-id")

Cancel a job

client.post_training.job.cancel(job_uuid="your-job-id")

Inference with the fine-tuned model

1. Register the model

from llama_stack.apis.models import Model, ModelType

client.models.register(
    model_id="test-example-model@v1",
    provider_id="nvidia",
    provider_model_id="test-example-model@v1",
    model_type=ModelType.llm,
)

2. Inference with the fine-tuned model

response = client.completions.create(
    prompt="Complete the sentence using one word: Roses are red, violets are ",
    stream=False,
    model="test-example-model@v1",
    max_tokens=50,
)
print(response.choices[0].text)

3.2 KiB Raw Blame History

NVIDIA Post-Training Provider for LlamaStack

Features

Getting Started

Prerequisites

Setup

Basic Usage using the LlamaStack Python Client

Create Customization Job

Initialize the client

Configure fine-tuning parameters

Set up LoRA configuration

Configure training data

Configure optimizer

Set up training configuration

Start fine-tuning job

List all jobs

Check job status

Cancel a job

Inference with the fine-tuned model

1. Register the model

2. Inference with the fine-tuned model

3.2 KiB

Raw Blame History