[ENH] add query config on collection configuration

jairad26 · jairad26 · commit 51007754147f · 2025-09-09T12:03:49.000-07:00
diff --git a/chromadb/api/collection_configuration.py b/chromadb/api/collection_configuration.py
@@ -99,7 +99,6 @@ def load_collection_configuration_from_json(
                 raise ValueError(
                     f"Could not build embedding function {ef_config['name']} from config {ef_config['config']}: {e}"
                 )
-
     else:
         ef = None
 
@@ -148,11 +147,6 @@ def collection_configuration_to_json(config: CollectionConfiguration) -> Dict[st
     if ef is None:
         ef = None
         ef_config = {"type": "legacy"}
-        return {
-            "hnsw": hnsw_config,
-            "spann": spann_config,
-            "embedding_function": ef_config,
-        }
 
     if ef is not None:
         try:
@@ -260,16 +254,6 @@ class CreateCollectionConfiguration(TypedDict, total=False):
     embedding_function: Optional[EmbeddingFunction]  # type: ignore
 
 
-def load_collection_configuration_from_create_collection_configuration(
-    config: CreateCollectionConfiguration,
-) -> CollectionConfiguration:
-    return CollectionConfiguration(
-        hnsw=config.get("hnsw"),
-        spann=config.get("spann"),
-        embedding_function=config.get("embedding_function"),
-    )
-
-
 def create_collection_configuration_from_legacy_collection_metadata(
     metadata: CollectionMetadata,
 ) -> CreateCollectionConfiguration:
@@ -301,13 +285,6 @@ def create_collection_configuration_from_legacy_metadata_dict(
     return CreateCollectionConfiguration(hnsw=hnsw_config)
 
 
-def load_create_collection_configuration_from_json_str(
-    json_str: str,
-) -> CreateCollectionConfiguration:
-    json_map = json.loads(json_str)
-    return load_create_collection_configuration_from_json(json_map)
-
-
 # TODO: make warnings prettier and add link to migration docs
 def load_create_collection_configuration_from_json(
     json_map: Dict[str, Any]
diff --git a/chromadb/api/models/CollectionCommon.py b/chromadb/api/models/CollectionCommon.py
@@ -313,7 +313,9 @@ def _validate_and_prepare_query_request(
         # Prepare
         if query_records["embeddings"] is None:
             validate_record_set_for_embedding(record_set=query_records)
-            request_embeddings = self._embed_record_set(record_set=query_records)
+            request_embeddings = self._embed_record_set(
+                record_set=query_records, is_query=True
+            )
         else:
             request_embeddings = query_records["embeddings"]
 
@@ -531,7 +533,10 @@ def _update_model_after_modify_success(
             )
 
     def _embed_record_set(
-        self, record_set: BaseRecordSet, embeddable_fields: Optional[Set[str]] = None
+        self,
+        record_set: BaseRecordSet,
+        embeddable_fields: Optional[Set[str]] = None,
+        is_query: bool = False,
     ) -> Embeddings:
         if embeddable_fields is None:
             embeddable_fields = get_default_embeddable_record_set_fields()
@@ -545,27 +550,41 @@ def _embed_record_set(
                             "You must set a data loader on the collection if loading from URIs."
                         )
                     return self._embed(
-                        input=self._data_loader(uris=cast(URIs, record_set[field]))  # type: ignore[literal-required]
+                        input=self._data_loader(uris=cast(URIs, record_set[field])),  # type: ignore[literal-required]
+                        is_query=is_query,
                     )
                 else:
-                    return self._embed(input=record_set[field])  # type: ignore[literal-required]
+                    return self._embed(
+                        input=record_set[field],  # type: ignore[literal-required]
+                        is_query=is_query,
+                    )
         raise ValueError(
             "Record does not contain any non-None fields that can be embedded."
             f"Embeddable Fields: {embeddable_fields}"
             f"Record Fields: {record_set}"
         )
 
-    def _embed(self, input: Any) -> Embeddings:
+    def _embed(self, input: Any, is_query: bool = False) -> Embeddings:
         if self._embedding_function is not None and not isinstance(
             self._embedding_function, ef.DefaultEmbeddingFunction
         ):
-            return self._embedding_function(input=input)
+            if is_query:
+                return self._embedding_function.embed_query(input=input)
+            else:
+                return self._embedding_function(input=input)
+
         config_ef = self.configuration.get("embedding_function")
         if config_ef is not None:
-            return config_ef(input=input)
+            if is_query:
+                return config_ef.embed_query(input=input)
+            else:
+                return config_ef(input=input)
         if self._embedding_function is None:
             raise ValueError(
                 "You must provide an embedding function to compute embeddings."
                 "https://docs.trychroma.com/guides/embeddings"
             )
-        return self._embedding_function(input=input)
+        if is_query:
+            return self._embedding_function.embed_query(input=input)
+        else:
+            return self._embedding_function(input=input)
diff --git a/chromadb/api/types.py b/chromadb/api/types.py
@@ -576,6 +576,13 @@ class EmbeddingFunction(Protocol[D]):
     def __call__(self, input: D) -> Embeddings:
         ...
 
+    def embed_query(self, input: D) -> Embeddings:
+        """
+        Get the embeddings for a query input.
+        This method is optional, and if not implemented, the default behavior is to call __call__.
+        """
+        return self.__call__(input)
+
     def __init_subclass__(cls) -> None:
         super().__init_subclass__()
         # Raise an exception if __call__ is not defined since it is expected to be defined
diff --git a/chromadb/utils/embedding_functions/__init__.py b/chromadb/utils/embedding_functions/__init__.py
@@ -32,6 +32,7 @@
 )
 from chromadb.utils.embedding_functions.jina_embedding_function import (
     JinaEmbeddingFunction,
+    JinaQueryConfig,
 )
 from chromadb.utils.embedding_functions.voyageai_embedding_function import (
     VoyageAIEmbeddingFunction,
@@ -237,6 +238,7 @@ def config_to_embedding_function(config: Dict[str, Any]) -> EmbeddingFunction:
     "OllamaEmbeddingFunction",
     "InstructorEmbeddingFunction",
     "JinaEmbeddingFunction",
+    "JinaQueryConfig",
     "MistralEmbeddingFunction",
     "MorphEmbeddingFunction",
     "VoyageAIEmbeddingFunction",
diff --git a/chromadb/utils/embedding_functions/jina_embedding_function.py b/chromadb/utils/embedding_functions/jina_embedding_function.py
@@ -1,12 +1,26 @@
-from chromadb.api.types import Embeddings, Documents, EmbeddingFunction, Space
+from chromadb.api.types import (
+    Embeddings,
+    EmbeddingFunction,
+    Space,
+    Embeddable,
+    is_image,
+    is_document,
+)
 from chromadb.utils.embedding_functions.schemas import validate_config_schema
-from typing import List, Dict, Any, Union, Optional
+from typing import List, Dict, Any, Union, Optional, TypedDict
 import os
 import numpy as np
 import warnings
+import importlib
+import base64
+import io
 
 
-class JinaEmbeddingFunction(EmbeddingFunction[Documents]):
+class JinaQueryConfig(TypedDict):
+    task: str
+
+
+class JinaEmbeddingFunction(EmbeddingFunction[Embeddable]):
     """
     This class is used to get embeddings for a list of texts using the Jina AI API.
     It requires an API key and a model name. The default model name is "jina-embeddings-v2-base-en".
@@ -23,6 +37,7 @@ def __init__(
         dimensions: Optional[int] = None,
         embedding_type: Optional[str] = None,
         normalized: Optional[bool] = None,
+        query_config: Optional[JinaQueryConfig] = None,
     ):
         """
         Initialize the JinaEmbeddingFunction.
@@ -52,6 +67,12 @@ def __init__(
             raise ValueError(
                 "The httpx python package is not installed. Please install it with `pip install httpx`"
             )
+        try:
+            self._PILImage = importlib.import_module("PIL.Image")
+        except ImportError:
+            raise ValueError(
+                "The PIL python package is not installed. Please install it with `pip install pillow`"
+            )
 
         if api_key is not None:
             warnings.warn(
@@ -74,57 +95,71 @@ def __init__(
         self.dimensions = dimensions
         self.embedding_type = embedding_type
         self.normalized = normalized
+        self.query_config = query_config
 
         self._api_url = "https://api.jina.ai/v1/embeddings"
         self._session = httpx.Client()
         self._session.headers.update(
             {"Authorization": f"Bearer {self.api_key}", "Accept-Encoding": "identity"}
         )
 
-    def __call__(self, input: Documents) -> Embeddings:
-        """
-        Get the embeddings for a list of texts.
-
-        Args:
-            input (Documents): A list of texts to get embeddings for.
-
-        Returns:
-            Embeddings: The embeddings for the texts.
-
-        Example:
-            >>> jina_ai_fn = JinaEmbeddingFunction(api_key_env_var="CHROMA_JINA_API_KEY")
-            >>> input = ["Hello, world!", "How are you?"]
-        """
-        # Jina AI only works with text documents
-        if not all(isinstance(item, str) for item in input):
-            raise ValueError("Jina AI only supports text documents, not images")
-
+    def _build_payload(self, input: Embeddable, is_query: bool) -> Dict[str, Any]:
         payload: Dict[str, Any] = {
-            "input": input,
+            "input": [],
             "model": self.model_name,
         }
+        if all(is_document(item) for item in input):
+            payload["input"] = input
+        else:
+            for item in input:
+                if is_document(item):
+                    payload["input"].append({"text": item})
+                elif is_image(item):
+                    try:
+                        pil_image = self._PILImage.fromarray(item)
+
+                        buffer = io.BytesIO()
+                        pil_image.save(buffer, format="PNG")
+                        img_bytes = buffer.getvalue()
+
+                        # Encode bytes to base64 string
+                        base64_string = base64.b64encode(img_bytes).decode("utf-8")
+
+                    except Exception as e:
+                        raise ValueError(
+                            f"Failed to convert image numpy array to base64 data URI: {e}"
+                        ) from e
+                    payload["input"].append({"image": base64_string})
 
         if self.task is not None:
             payload["task"] = self.task
-
         if self.late_chunking is not None:
             payload["late_chunking"] = self.late_chunking
-
         if self.truncate is not None:
             payload["truncate"] = self.truncate
-
         if self.dimensions is not None:
             payload["dimensions"] = self.dimensions
-
         if self.embedding_type is not None:
             payload["embedding_type"] = self.embedding_type
-
         if self.normalized is not None:
             payload["normalized"] = self.normalized
 
-        # Call Jina AI Embedding API
-        resp = self._session.post(self._api_url, json=payload).json()
+        if is_query and self.query_config is not None:
+            for key, value in self.query_config.items():
+                payload[key] = value
+
+        return payload
 
+    def _convert_resp(self, resp: Any, is_query: bool = False) -> Embeddings:
+        """
+        Convert the response from the Jina AI API to a list of numpy arrays.
+
+        Args:
+            resp (Any): The response from the Jina AI API.
+
+        Returns:
+            Embeddings: A list of numpy arrays representing the embeddings.
+        """
         if "data" not in resp:
             raise RuntimeError(resp.get("detail", "Unknown error"))
 
@@ -139,6 +174,36 @@ def __call__(self, input: Documents) -> Embeddings:
             for result in sorted_embeddings
         ]
 
+    def __call__(self, input: Embeddable) -> Embeddings:
+        """
+        Get the embeddings for a list of texts.
+
+        Args:
+            input (Embeddable): A list of texts and/or images to get embeddings for.
+
+        Returns:
+            Embeddings: The embeddings for the texts.
+
+        Example:
+            >>> jina_ai_fn = JinaEmbeddingFunction(api_key_env_var="CHROMA_JINA_API_KEY")
+            >>> input = ["Hello, world!", "How are you?"]
+        """
+
+        payload = self._build_payload(input, is_query=False)
+
+        # Call Jina AI Embedding API
+        resp = self._session.post(self._api_url, json=payload, timeout=60).json()
+
+        return self._convert_resp(resp)
+
+    def embed_query(self, input: Embeddable) -> Embeddings:
+        payload = self._build_payload(input, is_query=True)
+
+        # Call Jina AI Embedding API
+        resp = self._session.post(self._api_url, json=payload, timeout=60).json()
+
+        return self._convert_resp(resp, is_query=True)
+
     @staticmethod
     def name() -> str:
         return "jina"
@@ -150,7 +215,7 @@ def supported_spaces(self) -> List[Space]:
         return ["cosine", "l2", "ip"]
 
     @staticmethod
-    def build_from_config(config: Dict[str, Any]) -> "EmbeddingFunction[Documents]":
+    def build_from_config(config: Dict[str, Any]) -> "EmbeddingFunction[Embeddable]":
         api_key_env_var = config.get("api_key_env_var")
         model_name = config.get("model_name")
         task = config.get("task")
@@ -159,6 +224,7 @@ def build_from_config(config: Dict[str, Any]) -> "EmbeddingFunction[Documents]":
         dimensions = config.get("dimensions")
         embedding_type = config.get("embedding_type")
         normalized = config.get("normalized")
+        query_config = config.get("query_config")
 
         if api_key_env_var is None or model_name is None:
             assert False, "This code should not be reached"  # this is for type checking
@@ -172,6 +238,7 @@ def build_from_config(config: Dict[str, Any]) -> "EmbeddingFunction[Documents]":
             dimensions=dimensions,
             embedding_type=embedding_type,
             normalized=normalized,
+            query_config=query_config,
         )
 
     def get_config(self) -> Dict[str, Any]:
@@ -184,6 +251,7 @@ def get_config(self) -> Dict[str, Any]:
             "dimensions": self.dimensions,
             "embedding_type": self.embedding_type,
             "normalized": self.normalized,
+            "query_config": self.query_config,
         }
 
     def validate_config_update(