chroma-core · rescrv · Oct 29, 2025 · Oct 29, 2025 · Oct 29, 2025 · Oct 29, 2025
diff --git a/clients/new-js/packages/ai-embeddings/chroma-bm25/src/index.ts b/clients/new-js/packages/ai-embeddings/chroma-bm25/src/index.ts
@@ -190,18 +190,20 @@ export class ChromaBm25EmbeddingFunction implements SparseEmbeddingFunction {
     }
 
     private encode(text: string): SparseVector {
-        const tokens = this.tokenizer.tokenize(text);
+        const tokenList = this.tokenizer.tokenize(text);
 
-        if (tokens.length === 0) {
+        if (tokenList.length === 0) {
             return { indices: [], values: [] };
         }
 
-        const docLen = tokens.length;
+        const docLen = tokenList.length;
         const counts = new Map<number, number>();
+        const tokenMap = new Map<number, string>();
 
-        for (const token of tokens) {
+        for (const token of tokenList) {
             const tokenId = this.hasher.hash(token);
             counts.set(tokenId, (counts.get(tokenId) ?? 0) + 1);
+            tokenMap.set(tokenId, token);
         }
 
         const indices = Array.from(counts.keys()).sort((a, b) => a - b);
@@ -213,8 +215,9 @@ export class ChromaBm25EmbeddingFunction implements SparseEmbeddingFunction {
                 (1 - this.b + (this.b * docLen) / this.avgDocLength);
             return (tf * (this.k + 1)) / denominator;
         });
+        const tokens = indices.map((idx) => tokenMap.get(idx)!);
 
-        return { indices, values };
+        return { indices, values, tokens };
     }
 
     public async generate(texts: string[]): Promise<SparseVector[]> {

diff --git a/clients/new-js/packages/chromadb/src/api/types.gen.ts b/clients/new-js/packages/chromadb/src/api/types.gen.ts
@@ -452,6 +452,10 @@ export type SparseVector = {
      * Dimension indices
      */
     indices: Array<number>;
+    /**
+     * Tokens corresponding to each index
+     */
+    tokens?: Array<string> | null;
     /**
      * Values corresponding to each index
      */

diff --git a/clients/new-js/pnpm-lock.yaml b/clients/new-js/pnpm-lock.yaml
diff --git a/idl/chromadb/proto/chroma.proto b/idl/chromadb/proto/chroma.proto
@@ -28,6 +28,7 @@ message Vector {
 message SparseVector {
     repeated uint32 indices = 1;
     repeated float values = 2;
+    repeated string tokens = 3;
 }
 
 enum SegmentScope {

@@ -78,23 +78,24 @@ where
         let mut token_ids = Vec::with_capacity(tokens.len());
         for token in tokens {
             let id = self.hasher.hash(&token);
-            token_ids.push(id);
+            token_ids.push((id, token));
         }
 
         token_ids.sort_unstable();
 
-        let sparse_pairs = token_ids.chunk_by(|a, b| a == b).map(|chunk| {
-            let id = chunk[0];
+        let sparse_triples = token_ids.chunk_by(|a, b| a.0 == b.0).map(|chunk| {
+            let id = chunk[0].0;
+            let tk = chunk[0].1.clone();
             let tf = chunk.len() as f32;
 
             // BM25 formula
             let score = tf * (self.k + 1.0)
                 / (tf + self.k * (1.0 - self.b + self.b * doc_len / self.avg_len));
 
-            (id, score)
+            (tk, id, score)
         });
 
-        Ok(SparseVector::from_pairs(sparse_pairs))
+        Ok(SparseVector::from_triples(sparse_triples))
     }
 }
 

diff --git a/rust/frontend/src/server.rs b/rust/frontend/src/server.rs
@@ -1702,11 +1702,13 @@ async fn collection_delete(
         r#where,
     )?;
 
-    server
-        .frontend
-        .delete(request)
-        .meter(metering_context_container)
-        .await?;
+    Box::pin(
+        server
+            .frontend
+            .delete(request)
+            .meter(metering_context_container),
+    )
+    .await?;
 
     Ok(Json(DeleteCollectionRecordsResponse {}))
 }

diff --git a/rust/frontend/tests/proptest_helpers/frontend_under_test.rs b/rust/frontend/tests/proptest_helpers/frontend_under_test.rs
@@ -138,7 +138,9 @@ impl StateMachineTest for FrontendUnderTest {
                         }
                     }
 
-                    state.frontend.delete(request.clone()).await.unwrap();
+                    Box::pin(state.frontend.delete(request.clone()))
+                        .await
+                        .unwrap();
                 }
                 CollectionRequest::Get(mut request) => {
                     let expected_result = {

diff --git a/rust/python_bindings/src/bindings.rs b/rust/python_bindings/src/bindings.rs
@@ -561,7 +561,7 @@ impl Bindings {
 
         let mut frontend_clone = self.frontend.clone();
         self.runtime
-            .block_on(async { frontend_clone.delete(request).await })?;
+            .block_on(async { Box::pin(frontend_clone.delete(request)).await })?;
         Ok(())
     }
 

diff --git a/rust/segment/src/blockfile_metadata.rs b/rust/segment/src/blockfile_metadata.rs
@@ -2669,6 +2669,7 @@ mod test {
                 UpdateMetadataValue::SparseVector(chroma_types::SparseVector::new(
                     vec![0, 5, 10],
                     vec![0.1, 0.5, 0.9],
+                    None,
                 )),
             );
             update_metadata1.insert(

diff --git a/rust/types/src/api_types.rs b/rust/types/src/api_types.rs
@@ -2419,7 +2419,11 @@ mod test {
         // Add unsorted sparse vector - should fail validation
         metadata.insert(
             "sparse".to_string(),
-            MetadataValue::SparseVector(SparseVector::new(vec![3, 1, 2], vec![0.3, 0.1, 0.2])),
+            MetadataValue::SparseVector(SparseVector::new(
+                vec![3, 1, 2],
+                vec![0.3, 0.1, 0.2],
+                None,
+            )),
         );
 
         let result = AddCollectionRecordsRequest::try_new(
@@ -2446,6 +2450,7 @@ mod test {
             UpdateMetadataValue::SparseVector(SparseVector::new(
                 vec![3, 1, 2],
                 vec![0.3, 0.1, 0.2],
+                None,
             )),
         );
 
@@ -2473,6 +2478,7 @@ mod test {
             UpdateMetadataValue::SparseVector(SparseVector::new(
                 vec![3, 1, 2],
                 vec![0.3, 0.1, 0.2],
+                None,
             )),
         );
 

diff --git a/rust/types/src/collection_schema.rs b/rust/types/src/collection_schema.rs
@@ -1988,7 +1988,7 @@ impl Schema {
     ///
     /// # Examples
     /// ```
-    /// use chroma_types::{Schema, VectorIndexConfig, StringInvertedIndexConfig, Space};
+    /// use chroma_types::{Schema, VectorIndexConfig, StringInvertedIndexConfig, Space, SchemaBuilderError};
     ///
     /// # fn main() -> Result<(), SchemaBuilderError> {
     /// let schema = Schema::default()
@@ -2069,7 +2069,7 @@ impl Schema {
     ///
     /// # Examples
     /// ```
-    /// use chroma_types::{Schema, StringInvertedIndexConfig};
+    /// use chroma_types::{Schema, StringInvertedIndexConfig, SchemaBuilderError};
     ///
     /// # fn main() -> Result<(), SchemaBuilderError> {
     /// let schema = Schema::default()
@@ -3053,7 +3053,7 @@ mod tests {
         let schema = Schema::new_default(KnnIndex::Spann);
         let result = schema.is_knn_key_indexing_enabled(
             "custom_sparse",
-            &QueryVector::Sparse(SparseVector::new(vec![0_u32], vec![1.0_f32])),
+            &QueryVector::Sparse(SparseVector::new(vec![0_u32], vec![1.0_f32], None)),
         );
 
         let err = result.expect_err("expected indexing disabled error");
@@ -3088,7 +3088,7 @@ mod tests {
 
         let result = schema.is_knn_key_indexing_enabled(
             "sparse_enabled",
-            &QueryVector::Sparse(SparseVector::new(vec![0_u32], vec![1.0_f32])),
+            &QueryVector::Sparse(SparseVector::new(vec![0_u32], vec![1.0_f32], None)),
         );
 
         assert!(result.is_ok());

diff --git a/rust/types/src/execution/operator.rs b/rust/types/src/execution/operator.rs
@@ -800,7 +800,8 @@ impl TryFrom<KnnBatchResult> for chroma_proto::KnnBatchResult {
 ///
 /// let sparse = QueryVector::Sparse(SparseVector::new(
 ///     vec![0, 5, 10, 50],      // indices
-///     vec![0.5, 0.3, 0.8, 0.2] // values
+///     vec![0.5, 0.3, 0.8, 0.2], // values
+///     None,
 /// ));
 /// ```
 ///
@@ -829,7 +830,8 @@ impl TryFrom<KnnBatchResult> for chroma_proto::KnnBatchResult {
 /// let rank = RankExpr::Knn {
 ///     query: QueryVector::Sparse(SparseVector::new(
 ///         vec![1, 5, 10],
-///         vec![0.5, 0.3, 0.8]
+///         vec![0.5, 0.3, 0.8],
+///         None,
 ///     )),
 ///     key: Key::field("sparse_embedding"),
 ///     limit: 100,
@@ -2691,7 +2693,7 @@ mod tests {
 
     #[test]
     fn test_query_vector_sparse_proto_conversion() {
-        let sparse = SparseVector::new(vec![0, 5, 10], vec![0.1, 0.5, 0.9]);
+        let sparse = SparseVector::new(vec![0, 5, 10], vec![0.1, 0.5, 0.9], None);
         let query_vector = QueryVector::Sparse(sparse.clone());
 
         // Convert to proto
@@ -2977,7 +2979,8 @@ mod tests {
         assert_eq!(deserialized, dense);
 
         // Test sparse vector
-        let sparse = QueryVector::Sparse(SparseVector::new(vec![0, 5, 10], vec![0.1, 0.5, 0.9]));
+        let sparse =
+            QueryVector::Sparse(SparseVector::new(vec![0, 5, 10], vec![0.1, 0.5, 0.9], None));
         let json = serde_json::to_string(&sparse).unwrap();
         let deserialized: QueryVector = serde_json::from_str(&json).unwrap();
         assert_eq!(deserialized, sparse);