refactor: Remove double filtering based on score threshold (#3019)

# What does this PR do? Remove score_threshold based check from `OpenAIVectorStoreMixin` Closes: https://github.com/meta-llama/llama-stack/issues/3018   ## Test Plan
2025-12-03 09:53:45 +00:00 · 2025-08-02 15:57:03 -07:00 · 2025-08-02 15:57:03 -07:00 · 3c2aee610d
commit 3c2aee610d
parent 1e3b5aa9b8
4 changed files with 13 additions and 7 deletions
--- a/llama_stack/providers/inline/vector_io/faiss/faiss.py
+++ b/llama_stack/providers/inline/vector_io/faiss/faiss.py
@ -160,8 +160,11 @@ class FaissIndex(EmbeddingIndex):
        for d, i in zip(distances[0], indices[0], strict=False):
            if i < 0:
                continue
+            score = 1.0 / float(d) if d != 0 else float("inf")
+            if score < score_threshold:
+                continue
            chunks.append(self.chunk_by_index[int(i)])
-            scores.append(1.0 / float(d) if d != 0 else float("inf"))
+            scores.append(score)

        return QueryChunksResponse(chunks=chunks, scores=scores)

--- a/llama_stack/providers/remote/vector_io/pgvector/pgvector.py
+++ b/llama_stack/providers/remote/vector_io/pgvector/pgvector.py
@ -132,8 +132,11 @@ class PGVectorIndex(EmbeddingIndex):
            chunks = []
            scores = []
            for doc, dist in results:
+                score = 1.0 / float(dist) if dist != 0 else float("inf")
+                if score < score_threshold:
+                    continue
                chunks.append(Chunk(**doc))
-                scores.append(1.0 / float(dist) if dist != 0 else float("inf"))
+                scores.append(score)

            return QueryChunksResponse(chunks=chunks, scores=scores)

--- a/llama_stack/providers/remote/vector_io/weaviate/weaviate.py
+++ b/llama_stack/providers/remote/vector_io/weaviate/weaviate.py
@ -105,8 +105,12 @@ class WeaviateIndex(EmbeddingIndex):
                log.exception(f"Failed to parse document: {chunk_json}")
                continue

+            score = 1.0 / doc.metadata.distance if doc.metadata.distance != 0 else float("inf")
+            if score < score_threshold:
+                continue
+
            chunks.append(chunk)
-            scores.append(1.0 / doc.metadata.distance if doc.metadata.distance != 0 else float("inf"))
+            scores.append(score)

        return QueryChunksResponse(chunks=chunks, scores=scores)

--- a/llama_stack/providers/utils/memory/openai_vector_store_mixin.py
+++ b/llama_stack/providers/utils/memory/openai_vector_store_mixin.py
@ -433,10 +433,6 @@ class OpenAIVectorStoreMixin(ABC):
            # Convert response to OpenAI format
            data = []
            for chunk, score in zip(response.chunks, response.scores, strict=False):
-                # Apply score based filtering
-                if score < score_threshold:
-                    continue
-
                # Apply filters if provided
                if filters:
                    # Simple metadata filtering