llama-stack-mirror/docs/source/distributions/k8s-benchmark/openai-mock-deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: openai-mock
  labels:
    app: openai-mock
spec:
  replicas: 1
  selector:
    matchLabels:
      app: openai-mock
  template:
    metadata:
      labels:
        app: openai-mock
    spec:
      containers:
      - name: openai-mock
        image: python:3.12-slim
        ports:
        - containerPort: ${MOCK_INFERENCE_PORT}
        env:
        - name: PORT
          value: "${MOCK_INFERENCE_PORT}"
        - name: MOCK_MODELS
          value: "${MOCK_INFERENCE_MODEL}"
        - name: STREAM_DELAY_SECONDS
          value: "${STREAM_DELAY_SECONDS}"
        command: ["sh", "-c"]
        args:
        - |
          pip install flask &&
          python /app/openai-mock-server.py --port ${MOCK_INFERENCE_PORT}
        volumeMounts:
        - name: openai-mock-script
          mountPath: /app
      volumes:
      - name: openai-mock-script
        configMap:
          name: openai-mock
---
apiVersion: v1
kind: Service
metadata:
  name: openai-mock-service
spec:
  selector:
    app: openai-mock
  ports:
  - port: 8080
    targetPort: 8080
  type: ClusterIP