INCATools · hrshdhgd · Jul 11, 2023 · Jul 12, 2023 · Jul 12, 2023 · Jul 13, 2023
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -37,7 +37,7 @@ pysolr = "^3.9.0"
 eutils = ">=0.6.0"
 requests-cache = "^1.0.1"
 click = "*"
-semsimian = "^0.1.16"
+semsimian = ">=0.1.16"
 urllib3 = {version = "< 2", optional = true}
 
 [tool.poetry.dev-dependencies]

diff --git a/src/oaklib/cli.py b/src/oaklib/cli.py
@@ -12,6 +12,7 @@
 import os
 import re
 import secrets
+import subprocess
 import sys
 from collections import defaultdict
 from enum import Enum, unique
@@ -61,13 +62,15 @@
 )
 from oaklib.datamodels.search import create_search_configuration
 from oaklib.datamodels.settings import Settings
+from oaklib.datamodels.similarity import TermPairwiseSimilarity
 from oaklib.datamodels.summary_statistics_datamodel import (
     GroupedStatistics,
     UngroupedStatistics,
 )
 from oaklib.datamodels.text_annotator import TextAnnotationConfiguration
 from oaklib.datamodels.validation_datamodel import ValidationConfiguration
 from oaklib.datamodels.vocabulary import (
+    DEFAULT_SIMILARITY_MAP_FILE_BY_SEMSIMIAN,
     DEVELOPS_FROM,
     EQUIVALENT_CLASS,
     HAS_OBO_NAMESPACE,
@@ -2647,13 +2650,24 @@ def similarity_pair(terms, predicates, autolabel: bool, output: TextIO, output_t
     type=float,
     help="Minimum value for information content",
 )
+@click.option(
+    "--embeddings-file",
+    type=click.File(mode="r"),
+    help="file containing embeddings of all necessary nodes.",
+)
 @click.option("-o", "--output", help="path to output")
 @click.option(
     "--main-score-field",
     default="phenodigm_score",
     show_default=True,
     help="Score used for summarization",
 )
+@click.option(
+    "--low-memory/--no-low-memory",
+    default=False,
+    show_default=True,
+    help="If set, results will be generated by Rust.",
+)
 @autolabel_option
 @output_type_option
 @click.argument("terms", nargs=-1)
@@ -2663,8 +2677,10 @@ def similarity(
     set1_file,
     set2_file,
     autolabel: bool,
+    low_memory: bool,
     min_jaccard_similarity: Optional[float],
     min_ancestor_information_content: Optional[float],
+    embeddings_file: TextIO,
     main_score_field,
     output_type,
     output,
@@ -2752,21 +2768,69 @@ def similarity(
             else:
                 set2it = query_terms_iterator(terms, impl)
         actual_predicates = _process_predicates_arg(predicates)
-        for sim in impl.all_by_all_pairwise_similarity(
-            set1it,
-            set2it,
-            predicates=actual_predicates,
-            min_jaccard_similarity=min_jaccard_similarity,
-            min_ancestor_information_content=min_ancestor_information_content,
-        ):
+        if low_memory:
+            term_pairwise_similarity_attributes = [
+                attr
+                for attr in vars(TermPairwiseSimilarity)
+                if not any(attr.startswith(s) for s in ["class_", "__"])
+            ]
+            impl.all_by_all_pairwise_similarity_quick(
+                set1it,
+                set2it,
+                predicates=actual_predicates,
+                min_jaccard_similarity=min_jaccard_similarity,
+                min_ancestor_information_content=min_ancestor_information_content,
+                embeddings_file=embeddings_file,
+                outfile=output,
+            )
+
+            # Read the output file line by line and store the contents in a list
+            if output is None:
+                output = DEFAULT_SIMILARITY_MAP_FILE_BY_SEMSIMIAN
+            with open(output, "r") as f:
+                lines = f.readlines()
+
+            # Add the column names to the first line of the list
+            columns_already_present = lines[0].strip().split("\t")
+            columns_missing = [
+                col
+                for col in term_pairwise_similarity_attributes
+                if col not in columns_already_present
+            ]
+            columns_missing_as_str = "\t".join(columns_missing) + "\n"
+            header = lines[0].strip() + "\t" + columns_missing_as_str
+            lines[0] = header
+
+            # Write the updated contents back to the output file
+            with open(output, "w") as file:
+                file.writelines(lines)
+
             if autolabel:
-                # TODO: this can be made more efficient
-                sim.subject_label = impl.label(sim.subject_id)
-                sim.object_label = impl.label(sim.object_id)
-                sim.ancestor_label = impl.label(sim.ancestor_id)
-            writer.emit(sim)
-        writer.finish()
-        writer.file.close()
+                new_output = output.replace(".tsv", "_filled.tsv")
+                command = f"runoak -i {impl.resource.slug} fill-table {output} -o {new_output} --allow-missing"
+                try:
+                    subprocess.run(command, shell=True, check=True)  # noqa
+                    print(
+                        f"{output} filled successfully by oaklib and results are in {new_output}."
+                    )
+                except subprocess.CalledProcessError as e:
+                    print(f"Command execution failed with error code {e.returncode}.")
+        else:
+            for sim in impl.all_by_all_pairwise_similarity(
+                set1it,
+                set2it,
+                predicates=actual_predicates,
+                min_jaccard_similarity=min_jaccard_similarity,
+                min_ancestor_information_content=min_ancestor_information_content,
+            ):
+                if autolabel:
+                    # TODO: this can be made more efficient
+                    sim.subject_label = impl.label(sim.subject_id)
+                    sim.object_label = impl.label(sim.object_id)
+                    sim.ancestor_label = impl.label(sim.ancestor_id)
+                writer.emit(sim)
+            writer.finish()
+            writer.file.close()
     else:
         raise NotImplementedError(f"Cannot execute this using {impl} of type {type(impl)}")