llama-stack-mirror

mirror of https://github.com/meta-llama/llama-stack.git synced 2025-12-03 09:53:45 +00:00

History

Ashwin Bharambe 530d4bdfe1 refactor: move all llama code to models/llama out of meta reference (#1887 ) # What does this PR do? Move around bits. This makes the copies from llama-models _much_ easier to maintain and ensures we don't entangle meta-reference specific tidbits into llama-models code even by accident. Also, kills the meta-reference-quantized-gpu distro and rolls quantization deps into meta-reference-gpu. ## Test Plan ``` LLAMA_MODELS_DEBUG=1 \ with-proxy llama stack run meta-reference-gpu \ --env INFERENCE_MODEL=meta-llama/Llama-4-Scout-17B-16E-Instruct \ --env INFERENCE_CHECKPOINT_DIR=<DIR> \ --env MODEL_PARALLEL_SIZE=4 \ --env QUANTIZATION_TYPE=fp8_mixed ``` Start a server with and without quantization. Point integration tests to it using: ``` pytest -s -v tests/integration/inference/test_text_inference.py \ --stack-config http://localhost:8321 --text-model meta-llama/Llama-4-Scout-17B-16E-Instruct ```		2025-04-07 15:03:58 -07:00
..
bedrock	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
cerebras	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
ci-tests	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
dell	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
dev	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
experimental-post-training	fix: fix experimental-post-training template (#1740 )	2025-03-20 23:07:19 -07:00
fireworks	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
groq	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
hf-endpoint	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
hf-serverless	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
meta-reference-gpu	refactor: move all llama code to models/llama out of meta reference (#1887 )	2025-04-07 15:03:58 -07:00
nvidia	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
ollama	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
open-benchmark	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
passthrough	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
remote-vllm	docs: fix remote-vllm instructions (#1805 )	2025-03-27 10:19:51 -04:00
sambanova	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
tgi	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
together	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
vllm-gpu	chore: Revert "chore(telemetry): remove service_name entirely" (#1785 )	2025-03-25 14:42:05 -07:00
__init__.py	Auto-generate distro yamls + docs (#468 )	2024-11-18 14:57:06 -08:00
dependencies.json	refactor: move all llama code to models/llama out of meta reference (#1887 )	2025-04-07 15:03:58 -07:00
template.py	feat(api): (1/n) datasets api clean up (#1573 )	2025-03-17 16:55:45 -07:00