Merge pull request #11 from momijiame/feature/support-polars-v1

bump up version to v0.0.4
momijiame · Jul 23, 2024 · e9db218 · e9db218
2 parents 337231f + 11a0a91
commit e9db218
Show file tree

Hide file tree

Showing 12 changed files with 29 additions and 24 deletions.
diff --git a/.github/workflows/python-testing.yml b/.github/workflows/python-testing.yml
@@ -20,6 +20,7 @@ jobs:
           - "3.9"
           - "3.10"
           - "3.11"
+          - "3.12"
 
     steps:
 

diff --git a/pyproject.toml b/pyproject.toml
@@ -17,11 +17,12 @@ classifiers = [
     "Programming Language :: Python :: 3.9",
     "Programming Language :: Python :: 3.10",
     "Programming Language :: Python :: 3.11",
+    "Programming Language :: Python :: 3.12",
     "License :: OSI Approved :: MIT License",
     "Operating System :: OS Independent",
 ]
 dependencies = [
-    "polars>=0.19.16",
+    "polars>=1.0.0",
     "scikit-learn",
     "scipy",
 ]

diff --git a/shirokumas/__init__.py b/shirokumas/__init__.py
@@ -7,7 +7,7 @@
 from ._ordinal import OrdinalEncoder  # noqa: F401
 from ._target import TargetEncoder  # noqa: F401
 
-__version__ = "0.0.3"
+__version__ = "0.0.4"
 __all__ = [
     "AggregateEncoder",
     "CountEncoder",

diff --git a/shirokumas/_agg.py b/shirokumas/_agg.py
@@ -54,16 +54,21 @@ def _transform(self, X: pl.DataFrame, **transform_params) -> pl.DataFrame:
         X_lazy: pl.LazyFrame = X.select(self.mappings.keys()).lazy()
 
         for col, mapping in self.mappings.items():
-            col_remappings: dict[str, dict[str | None, float | int]] = defaultdict(
-                lambda: {None: missing_value}
-            )
+            col_remappings: dict[str, dict[str | None, float | int]] = defaultdict(dict)
+
             for category, *agg_values in mapping.rows():
                 for agg_name, agg_value in zip(mapping.columns[1:], agg_values):
                     col_remappings[agg_name][category] = agg_value
+
+            for agg_name, replace_map in col_remappings.items():
+                value_sample = next(iter(replace_map.values()))
+                cast_type = type(value_sample)
+                col_remappings[agg_name][None] = cast_type(missing_value)
+
             X_lazy = X_lazy.with_columns(
                 [
                     pl.col(col)
-                    .replace(remapping, default=unknown_value)
+                    .replace_strict(remapping, default=unknown_value)
                     .alias(agg_name)
                     for agg_name, remapping in col_remappings.items()
                 ]

diff --git a/shirokumas/_count.py b/shirokumas/_count.py
@@ -36,7 +36,7 @@ def __init__(
     def _fit(self, X: pl.DataFrame, y: pl.Series | None = None, **fit_params):
         cols = self.cols or X.columns
         for col in cols:
-            self.mappings[col] = X.group_by(col).count()
+            self.mappings[col] = X.group_by(col).len()
 
     def _transform(self, X: pl.DataFrame, **transform_params) -> pl.DataFrame:
         unknown_value = -1
@@ -47,7 +47,7 @@ def _transform(self, X: pl.DataFrame, **transform_params) -> pl.DataFrame:
         for col, mapping in self.mappings.items():
             remapping = {category: count for category, count in mapping.rows()}
             remapping[None] = missing_value
-            expr = pl.col(col).replace(
+            expr = pl.col(col).replace_strict(
                 remapping,
                 default=unknown_value,
             )

diff --git a/shirokumas/_ordinal.py b/shirokumas/_ordinal.py
@@ -63,7 +63,7 @@ def _transform(self, X: pl.DataFrame, **transform_params) -> pl.DataFrame:
         for col in self.mappings.keys():
             remapping = self.mappings[col]
             remapping[None] = missing_value
-            expr = pl.col(col).replace(
+            expr = pl.col(col).replace_strict(
                 remapping,
                 default=unknown_value,
             )

diff --git a/shirokumas/_target.py b/shirokumas/_target.py
@@ -39,7 +39,7 @@ def __init__(
         self.encoder: BaseEncoder = encoder_cls(
             **(self.smoothing_params or {}),
         )
-        self.global_mean: float | None = None
+        self.global_mean: pl.PythonLiteral | None = None
 
     def _fit(self, X: pl.DataFrame, y: pl.Series | None = None, **fit_params):
         if y is None:
@@ -109,7 +109,7 @@ def transform(self, X: pl.DataFrame) -> pl.DataFrame:
                 for category, local_mean in self.mappings[col].rows()
             }
             remapping[None] = _MISSING_VALUE
-            expr = pl.col(col).replace(
+            expr = pl.col(col).replace_strict(
                 remapping,
                 default=_UNKNOWN_VALUE,
             )
@@ -119,12 +119,12 @@ def transform(self, X: pl.DataFrame) -> pl.DataFrame:
 
 
 class _MEstimateStrategy(BaseEstimator, TransformerMixin):
-    global_mean: float
 
     def __init__(self, m: float = 1.0):
         self.m = m
 
         self.mappings: dict[str, pl.DataFrame] = {}
+        self.global_mean: pl.PythonLiteral | None = None
 
     def fit(self, X: pl.DataFrame, y: pl.Series):
         self.global_mean = y.mean()
@@ -155,7 +155,7 @@ def transform(self, X: pl.DataFrame) -> pl.DataFrame:
                 for category, local_count, local_sum in self.mappings[col].rows()
             }
             remapping[None] = _MISSING_VALUE
-            expr = pl.col(col).replace(
+            expr = pl.col(col).replace_strict(
                 remapping,
                 default=_UNKNOWN_VALUE,
             )
@@ -170,7 +170,7 @@ def __init__(self, k: int = 20, f: int = 10):
         self.f = f
 
         self.mappings: dict[str, pl.DataFrame] = {}
-        self.global_mean: float | None = None
+        self.global_mean: pl.PythonLiteral | None = None
 
     def fit(self, X: pl.DataFrame, y: pl.Series):
         self.global_mean = y.mean()
@@ -208,7 +208,7 @@ def transform(self, X: pl.DataFrame) -> pl.DataFrame:
                 for category, local_mean, smoothing_factor in self.mappings[col].rows()
             }
             remapping[None] = _MISSING_VALUE
-            expr = pl.col(col).replace(
+            expr = pl.col(col).replace_strict(
                 remapping,
                 default=_UNKNOWN_VALUE,
             )

diff --git a/tests/shirokumas/test_agg.py b/tests/shirokumas/test_agg.py
@@ -54,7 +54,7 @@ def test(self):
 
         expected_df = pl.DataFrame(
             {
-                "fruits_mean": [unknown, missing, 250.0],
+                "fruits_mean": [float(unknown), float(missing), 250.0],
                 "fruits_max": [unknown, missing, 300],
                 "vegetables_mean": [100.0, 100.0, 300.0],
                 "vegetables_max": [100, 100, 300],

diff --git a/tests/shirokumas/test_binarize.py b/tests/shirokumas/test_binarize.py
@@ -37,8 +37,8 @@ def test(self):
         test_df = pl.DataFrame(
             {
                 "fruits": ["unseen", None, "banana"],
-                "users": ["alice", "unseen", np.nan],
-            }
+                "users": ["alice", "unseen", None],
+            },
         )
         encoded_df = encoder.transform(test_df)
 

diff --git a/tests/shirokumas/test_count.py b/tests/shirokumas/test_count.py
@@ -1,7 +1,6 @@
 import pickle
 import tempfile
 
-import numpy as np
 import polars as pl
 import pytest
 from polars.testing import assert_frame_equal
@@ -33,7 +32,7 @@ def test(self):
         test_df = pl.DataFrame(
             {
                 "fruits": ["unseen", None, "banana"],
-                "users": ["alice", "unseen", np.nan],
+                "users": ["alice", "unseen", None],
             },
         )
         encoded_df = encoder.transform(test_df)

diff --git a/tests/shirokumas/test_null.py b/tests/shirokumas/test_null.py
@@ -33,7 +33,7 @@ def test(self):
         test_df = pl.DataFrame(
             {
                 "fruits": ["unseen", None, "banana"],
-                "prices": [300, 400, np.nan],
+                "prices": [300., 400., np.nan],
             },
         )
         encoded_df = encoder.transform(test_df)

diff --git a/tests/shirokumas/test_ordinal.py b/tests/shirokumas/test_ordinal.py
@@ -1,7 +1,6 @@
 import pickle
 import tempfile
 
-import numpy as np
 import polars as pl
 import pytest
 from polars.testing import assert_frame_equal
@@ -40,8 +39,8 @@ def test(self):
         test_df = pl.DataFrame(
             {
                 "fruits": ["unseen", None, "apple"],
-                "users": ["alice", "unseen", np.nan],
-            }
+                "users": ["alice", "unseen", None],
+            },
         )
         encoded_df = encoder.transform(test_df)
-Original file line number
+Diff line change
@@ Expand Up / @@ -20,6 +20,7 @@ jobs: @@
               - "3.9"
               - "3.10"
               - "3.11"
+              - "3.12"
         steps:
@@ Expand Down @@