added autogluon test and cli support

mmcdermott · Aug 21, 2024 · 94dfde2 · 94dfde2
1 parent e6cf085
commit 94dfde2
Show file tree

Hide file tree

Showing 8 changed files with 38 additions and 227 deletions.
diff --git a/pyproject.toml b/pyproject.toml
@@ -24,7 +24,9 @@ meds-tab-describe = "MEDS_tabular_automl.scripts.describe_codes:main"
 meds-tab-tabularize-static = "MEDS_tabular_automl.scripts.tabularize_static:main"
 meds-tab-tabularize-time-series = "MEDS_tabular_automl.scripts.tabularize_time_series:main"
 meds-tab-cache-task = "MEDS_tabular_automl.scripts.cache_task:main"
-meds-tab-xgboost = "MEDS_tabular_automl.scripts.launch_xgboost:main"
+meds-tab-xgboost = "MEDS_tabular_automl.scripts.launch_model:main"
+meds-tab-model = "MEDS_tabular_automl.scripts.launch_model:main"
+meds-tab-autogluon = "MEDS_tabular_automl.scripts.launch_autogluon:main"
 generate-subsets = "MEDS_tabular_automl.scripts.generate_subsets:main"
 
 

diff --git a/src/MEDS_tabular_automl/configs/launch_autogluon.yaml b/src/MEDS_tabular_automl/configs/launch_autogluon.yaml
@@ -1,6 +1,8 @@
 defaults:
   - default
   - tabularization: default
+  - imputer: default
+  - normalization: default
   - override hydra/sweeper: optuna
   - override hydra/sweeper/sampler: tpe
   - override hydra/launcher: joblib

diff --git a/src/MEDS_tabular_automl/configs/launch_sklearnmodel.yaml b/src/MEDS_tabular_automl/configs/launch_sklearnmodel.yaml
diff --git a/src/MEDS_tabular_automl/configs/launch_xgboost.yaml b/src/MEDS_tabular_automl/configs/launch_xgboost.yaml
diff --git a/src/MEDS_tabular_automl/scripts/launch_sklearnmodel.py b/src/MEDS_tabular_automl/scripts/launch_sklearnmodel.py
diff --git a/src/MEDS_tabular_automl/scripts/launch_xgboost.py b/src/MEDS_tabular_automl/scripts/launch_xgboost.py
diff --git a/src/MEDS_tabular_automl/tabular_dataset.py b/src/MEDS_tabular_automl/tabular_dataset.py
@@ -224,7 +224,10 @@ def _get_approximate_correlation_per_feature(self, X: sp.csc_matrix, y: np.ndarr
 
     def _set_imputer(self):
         """Sets the imputer for the data."""
-        if self.cfg.model_params.iterator.imputer.imputer_target:
+        if (
+            hasattr(self.cfg.model_params.iterator, "imputer")
+            and self.cfg.model_params.iterator.imputer.imputer_target
+        ):
             imputer = self.cfg.model_params.iterator.imputer.imputer_target
             if hasattr(imputer, "partial_fit"):
                 for i in range(len(self._data_shards)):
@@ -240,7 +243,10 @@ def _set_imputer(self):
 
     def _set_scaler(self):
         """Sets the scaler for the data."""
-        if self.cfg.model_params.iterator.normalization.normalizer:
+        if (
+            hasattr(self.cfg.model_params.iterator, "normalization")
+            and self.cfg.model_params.iterator.normalization.normalizer
+        ):
             scaler = self.cfg.model_params.iterator.normalization.normalizer
             if hasattr(scaler, "partial_fit"):
                 for i in range(len(self._data_shards)):

diff --git a/tests/test_tabularize.py b/tests/test_tabularize.py
@@ -2,7 +2,9 @@
 
 root = rootutils.setup_root(__file__, dotenv=True, pythonpath=True, cwd=True)
 
+import importlib.util
 import json
+import os
 import subprocess
 import tempfile
 from io import StringIO
@@ -370,25 +372,31 @@ def test_tabularize():
         output_files = list(output_dir.glob("**/*.pkl"))
         assert len(output_files) == 1
 
-        # autogluon_config_kwargs = {
-        #     **shared_config,
-        #     "tabularization.min_code_inclusion_count": 1,
-        #     "tabularization.window_sizes": "[30d,365d,full]",
-        #     "model_params.iterator.keep_data_in_memory": False,
-        #     "model_dir": "${output_cohort_dir}/model_online/model_${now:%Y-%m-%d_%H-%M-%S}",
-        # }
+        if importlib.util.find_spec("autogluon") is not None:
+            import autogluon as ag
 
-        # with initialize(
-        #     version_base=None, config_path="../src/MEDS_tabular_automl/configs/"
-        # ):  # path to config.yaml
-        #     overrides = [f"{k}={v}" for k, v in sklearnmodel_config_kwargs.items()]
-        #     cfg = compose(config_name="launch_sklearnmodel", overrides=overrides)  # config.yaml
+            from MEDS_tabular_automl.scripts import launch_autogluon
 
-        # output_dir = Path(cfg.output_cohort_dir) / "model_online"
+            autogluon_config_kwargs = {
+                **shared_config,
+                "tabularization.min_code_inclusion_count": 1,
+                "tabularization.window_sizes": "[30d,365d,full]",
+                "model_params.iterator.keep_data_in_memory": False,
+                "model_dir": "${output_cohort_dir}/model_online/model_${now:%Y-%m-%d_%H-%M-%S}",
+            }
 
-        # launch_model.main(cfg)
-        # output_files = list(output_dir.glob("**/*.pkl"))
-        # assert len(output_files) == 1
+            with initialize(
+                version_base=None, config_path="../src/MEDS_tabular_automl/configs/"
+            ):  # path to config.yaml
+                overrides = [f"{k}={v}" for k, v in autogluon_config_kwargs.items()]
+                cfg = compose(config_name="launch_autogluon", overrides=overrides)  # config.yaml
+
+            output_dir = Path(cfg.output_cohort_dir) / "model_online"
+
+            launch_autogluon.main(cfg)
+            output_files = list(output_dir.glob("*"))
+            most_recent_file = max(output_files, key=os.path.getmtime)
+            ag.tabular.TabularPredictor.load(most_recent_file)
 
 
 def run_command(script: str, args: list[str], hydra_kwargs: dict[str, str], test_name: str):
@@ -421,5 +429,5 @@ def test_xgboost_config():
         version_base=None, config_path="../src/MEDS_tabular_automl/configs/"
     ):  # path to config.yaml
         overrides = [f"{k}={v}" for k, v in xgboost_config_kwargs.items()]
-        cfg = compose(config_name="launch_xgboost", overrides=overrides)  # config.yaml
+        cfg = compose(config_name="launch_model", overrides=overrides)  # config.yaml
     assert cfg.tabularization.window_sizes