Enable vision models for Together and Fireworks

2025-10-18 07:18:53 +00:00 · 2024-11-05 12:29:07 -08:00 · 2024-11-05 12:29:07 -08:00 · 03013dafc1
commit 03013dafc1
parent 8de845a96d
9 changed files with 297 additions and 35 deletions
--- a/llama_stack/providers/adapters/inference/together/together.py
+++ b/llama_stack/providers/adapters/inference/together/together.py
@ -26,6 +26,8 @@ from llama_stack.providers.utils.inference.openai_compat import (
 from llama_stack.providers.utils.inference.prompt_adapter import (
    chat_completion_request_to_prompt,
    completion_request_to_prompt,
+    convert_message_to_dict,
+    request_has_media,
 )

 from .config import TogetherImplConfig
@ -102,7 +104,7 @@ class TogetherInferenceAdapter(
        return process_completion_response(r, self.formatter)

    async def _stream_completion(self, request: CompletionRequest) -> AsyncGenerator:
-        params = self._get_params_for_completion(request)
+        params = self._get_params(request)

        # if we shift to TogetherAsyncClient, we won't need this wrapper
        async def _to_async_generator():
@ -131,14 +133,6 @@ class TogetherInferenceAdapter(

        return options

-    def _get_params_for_completion(self, request: CompletionRequest) -> dict:
-        return {
-            "model": self.map_to_provider_model(request.model),
-            "prompt": completion_request_to_prompt(request, self.formatter),
-            "stream": request.stream,
-            **self._build_options(request.sampling_params, request.response_format),
-        }
-
    async def chat_completion(
        self,
        model: str,
@ -172,7 +166,10 @@ class TogetherInferenceAdapter(
        self, request: ChatCompletionRequest
    ) -> ChatCompletionResponse:
        params = self._get_params(request)
-        r = self._get_client().completions.create(**params)
+        if "messages" in params:
+            r = self._get_client().chat.completions.create(**params)
+        else:
+            r = self._get_client().completions.create(**params)
        return process_chat_completion_response(r, self.formatter)

    async def _stream_chat_completion(
@ -182,7 +179,10 @@ class TogetherInferenceAdapter(

        # if we shift to TogetherAsyncClient, we won't need this wrapper
        async def _to_async_generator():
-            s = self._get_client().completions.create(**params)
+            if "messages" in params:
+                s = self._get_client().chat.completions.create(**params)
+            else:
+                s = self._get_client().completions.create(**params)
            for chunk in s:
                yield chunk

@ -192,10 +192,29 @@ class TogetherInferenceAdapter(
        ):
            yield chunk

-    def _get_params(self, request: ChatCompletionRequest) -> dict:
+    def _get_params(
+        self, request: Union[ChatCompletionRequest, CompletionRequest]
+    ) -> dict:
+        input_dict = {}
+        media_present = request_has_media(request)
+        if isinstance(request, ChatCompletionRequest):
+            if media_present:
+                input_dict["messages"] = [
+                    convert_message_to_dict(m) for m in request.messages
+                ]
+            else:
+                input_dict["prompt"] = chat_completion_request_to_prompt(
+                    request, self.formatter
+                )
+        else:
+            assert (
+                not media_present
+            ), "Together does not support media for Completion requests"
+            input_dict["prompt"] = completion_request_to_prompt(request, self.formatter)
+
        return {
            "model": self.map_to_provider_model(request.model),
-            "prompt": chat_completion_request_to_prompt(request, self.formatter),
+            **input_dict,
            "stream": request.stream,
            **self._build_options(request.sampling_params, request.response_format),
        }