Add a meta-reference-quantized-gpu distribution

2025-12-05 18:27:22 +00:00 · 2024-10-23 19:33:14 -07:00 · 2024-10-23 19:33:14 -07:00 · 05a8d47b98
commit 05a8d47b98
parent f5dcc03742
6 changed files with 104 additions and 4 deletions
--- a/distributions/meta-reference-quantized-gpu/build.yaml
+++ b/distributions/meta-reference-quantized-gpu/build.yaml
@ -0,0 +1,14 @@
+name: meta-reference-quantized-gpu
+distribution_spec:
+  docker_image: pytorch/pytorch:2.5.0-cuda12.4-cudnn9-runtime
+  description: Use code from `llama_stack` itself to serve all llama stack APIs
+  providers:
+    inference: meta-reference-quantized
+    memory:
+    - meta-reference
+    - remote::chromadb
+    - remote::pgvector
+    safety: meta-reference
+    agents: meta-reference
+    telemetry: meta-reference
+image_type: docker