Eia176 wide table #3590

jdangerx · 2024-05-22T13:59:01Z

FYI: They've graduated from "experimental" since you opened this draft PR, we can take this out! Benefits of waiting a month to review your PR 😅

jdangerx · 2024-05-22T15:22:42Z

It looks to me like you're trying to manually do an unstack() operation (take the variable names in the "variable_name" column and turn them into a bunch of columns). There's 51k PK groups here, and doing iterrows() across each group and recombining is pretty expensive in pandas.

I was able to get a similarly shaped result across all years in ~5s by leveraging the built-in unstack functionality and some inelegant cleanup of unstack artifacts.

primary_key = ["report_year", "area", "id"] raw_eia176__data["variable_name"] = ( raw_eia176__data["line"] + "_" + raw_eia176__data["atype"] ) # TODO should probably sanitize this company name somewhere beforehand granular = raw_eia176__data.loc[ raw_eia176__data.company.str.strip().str.lower() != "total of all companies" ] unstacked = ( granular .drop(columns=["itemsort", "item", "atype", "line", "company"]) .set_index(primary_key + ["variable_name"]) .unstack(level="variable_name") ) # columns is a weird multi-index with ("value", "actual column name") - clean that up unstacked.columns = unstacked.columns.droplevel(0) unstacked.columns.name = None # gets rid of "variable_name" name of columns index # TODO instead of "first NA value we see in each column" applied willy-nilly, we could check to see if there are any conflicting non-null values using .count() first. condensed = unstacked.groupby(level=primary_key).first().reset_index() return condensed

One sort of weird thing that I'm curious about - in #3501 it looks like we wanted to use item to identify variables - should we be doing that instead of the line + atype thing we have going on here?

Outputs for comparison/posterity:

`unstack`, all years

report_year area id 1010_CS 1010_CT 1010_VL 101T_VL 1020_CS 1020_CT 1020_VL 102T_VL 1030_CS 1030_CT 1030_VL 103T_VL 1040_CS 1040_CT 1040_VL 104T_VL 1050_CS 1050_CT 1050_VL 105T_VL 1060_CS 1060_CT 1060_VL 106T_VL 110_VL 1110_CS 1110_CT 1110_VL 1120_CS 1120_CT 1120_VL 1130_CS 1130_CT 1130_VL 1140_CS 1140_CT 1140_VL 1150_CS 1150_CT 1150_VL 1160_CT 1160_VL 120_VL 1210_VL 1220_VL 1230_VL 1240_VL 1250_VL 1260_VL 1310_VL 1320_VL 1330_VL 1400_VL 1500_VL 1600_VL 1700_VL 1810_VL 1820_VL 1830_VL 1840_VL 1900_VL 2000_VL 210_VL 220_VL 230_VL 300_VL 3014_CT 3014_VL 3_VL 400_VL 410_CS 410_VL 420_VL 500_VL 5_CT 600_VL 6_CT 700_VL 800_VL 810_VL 810_YA 820_VL 820_YA 900_VL 9_VL 0 1997 Alabama 17600048AL 251371.0 625.0 29469.0 29469.0 69956.0 50.0 8358.0 8358.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 37827.0 -9795.0 NaN NaN NaN 28032.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 28032.0 NaN NaN NaN NaN NaN 1100.0 NaN 1 1997 Alabama 17600049AL 221993.0 501.0 28016.0 28016.0 27135.0 22.0 4606.0 4606.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 32622.0 1417.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 34039.0 NaN NaN NaN 34039.0 NaN NaN NaN NaN NaN 1018.0 NaN 2 1997 Alabama 17600139AL 246105034.0 423130.0 29308019.0 29308019.0 72340233.0 35652.0 9951817.0 20985483.0 16947052.0 1498.0 2724147.0 51277620.0 NaN NaN NaN 7028200.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 87.0 11033666.0 0.0 194.0 48553473.0 0.0 3.0 7028200.0 NaN NaN NaN NaN NaN NaN 179045.0 NaN NaN NaN NaN NaN NaN 783604.0 NaN NaN NaN NaN NaN NaN NaN 7800144.0 NaN 117362115.0 49682.0 NaN 404450.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN 117007347.0 NaN NaN NaN 117411797.0 NaN NaN NaN NaN NaN 1017.0 NaN 3 1997 Alabama 17600141AL NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 14356530.0 NaN NaN NaN 1598402.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 9.0 14356530.0 0.0 1.0 1598402.0 NaN NaN NaN NaN NaN NaN 52657.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 18275351.0 NaN NaN NaN 34282940.0 80555.0 NaN NaN NaN 10785270.0 NaN NaN NaN NaN NaN NaN NaN 23578225.0 NaN NaN NaN 34363495.0 NaN NaN NaN NaN NaN NaN NaN 4 1997 Alabama 17600162AL 1344834.0 3488.0 204256.0 204256.0 842826.0 523.0 135980.0 135980.0 2427378.0 7.0 703608.0 703608.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1043844.0 165.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1044009.0 NaN NaN NaN 1044009.0 NaN NaN NaN NaN NaN 1037.0 NaN ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 51365 2022 Wyoming 17678821WY NaN NaN NaN NaN NaN NaN NaN NaN 1926358.0 6.0 228238.0 228238.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 721281.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 13711595.0 NaN NaN 14661114.0 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 14661114.0 NaN NaN NaN 14661114.0 NaN NaN NaN NaN NaN 1070.0 NaN 51366 2022 Wyoming 17695156WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1851326.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 76757.0 1.0 1851326.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1522.0 460891.0 NaN NaN NaN 2313739.0 -1522.0 NaN NaN NaN 2312217.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 2312217.0 NaN NaN NaN NaN NaN 1000.0 NaN 51367 2022 Wyoming 17695458WY 1588901.0 1550.0 134273.0 134273.0 1426548.0 277.0 125426.0 125426.0 NaN NaN NaN NaN NaN NaN NaN NaN 19892.0 1.0 1819.0 1819.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1530.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 215.0 NaN NaN NaN NaN 263263.0 2823.0 NaN NaN NaN NaN NaN 2.0 NaN NaN NaN 266086.0 NaN NaN NaN NaN NaN 266086.0 NaN NaN NaN NaN NaN 1095.0 NaN 51368 2022 Wyoming 17696301WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 234285.0 2.0 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN 1050.0 NaN 51369 2022 Wyoming 17699910WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 120000000.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN [51370 rows x 88 columns]

existing code, all years

report_year area id 1010_CS 1010_CT 1010_VL 101T_VL 1020_CS 1020_CT 1020_VL 102T_VL 1030_CS 1030_CT 1030_VL 103T_VL 1040_CS 1040_CT 1040_VL 104T_VL 1050_CS 1050_CT 1050_VL 105T_VL 1060_CS 1060_CT 1060_VL 106T_VL 110_VL 1110_CS 1110_CT 1110_VL 1120_CS 1120_CT 1120_VL 1130_CS 1130_CT 1130_VL 1140_CS 1140_CT 1140_VL 1150_CS 1150_CT 1150_VL 1160_CT 1160_VL 120_VL 1210_VL 1220_VL 1230_VL 1240_VL 1250_VL 1260_VL 1310_VL 1320_VL 1330_VL 1400_VL 1500_VL 1600_VL 1700_VL 1810_VL 1820_VL 1830_VL 1840_VL 1900_VL 2000_VL 210_VL 220_VL 230_VL 300_VL 3014_CT 3014_VL 3_VL 400_VL 410_CS 410_VL 420_VL 500_VL 5_CT 600_VL 6_CT 700_VL 800_VL 810_VL 810_YA 820_VL 820_YA 900_VL 9_VL 0 1997 Alabama 17600048AL 251371.0 625.0 29469.0 29469.0 69956.0 50.0 8358.0 8358.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 37827.0 -9795.0 NaN NaN NaN 28032.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 28032.0 NaN NaN NaN NaN NaN 1100.0 NaN 1 1997 Alabama 17600049AL 221993.0 501.0 28016.0 28016.0 27135.0 22.0 4606.0 4606.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 32622.0 1417.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 34039.0 NaN NaN NaN 34039.0 NaN NaN NaN NaN NaN 1018.0 NaN 2 1997 Alabama 17600139AL 246105034.0 423130.0 29308019.0 29308019.0 72340233.0 35652.0 9951817.0 20985483.0 16947052.0 1498.0 2724147.0 51277620.0 NaN NaN NaN 7028200.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 87.0 11033666.0 0.0 194.0 48553473.0 0.0 3.0 7028200.0 NaN NaN NaN NaN NaN NaN 179045.0 NaN NaN NaN NaN NaN NaN 783604.0 NaN NaN NaN NaN NaN NaN NaN 7800144.0 NaN 117362115.0 49682.0 NaN 404450.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN 117007347.0 NaN NaN NaN 117411797.0 NaN NaN NaN NaN NaN 1017.0 NaN 3 1997 Alabama 17600141AL NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 14356530.0 NaN NaN NaN 1598402.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 9.0 14356530.0 0.0 1.0 1598402.0 NaN NaN NaN NaN NaN NaN 52657.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 18275351.0 NaN NaN NaN 34282940.0 80555.0 NaN NaN NaN 10785270.0 NaN NaN NaN NaN NaN NaN NaN 23578225.0 NaN NaN NaN 34363495.0 NaN NaN NaN NaN NaN NaN NaN 4 1997 Alabama 17600162AL 1344834.0 3488.0 204256.0 204256.0 842826.0 523.0 135980.0 135980.0 2427378.0 7.0 703608.0 703608.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1043844.0 165.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1044009.0 NaN NaN NaN 1044009.0 NaN NaN NaN NaN NaN 1037.0 NaN ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 51365 2022 Wyoming 17678821WY NaN NaN NaN NaN NaN NaN NaN NaN 1926358.0 6.0 228238.0 228238.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 721281.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 13711595.0 NaN NaN 14661114.0 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 14661114.0 NaN NaN NaN 14661114.0 NaN NaN NaN NaN NaN 1070.0 NaN 51366 2022 Wyoming 17695156WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1851326.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 76757.0 1.0 1851326.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1522.0 460891.0 NaN NaN NaN 2313739.0 -1522.0 NaN NaN NaN 2312217.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 2312217.0 NaN NaN NaN NaN NaN 1000.0 NaN 51367 2022 Wyoming 17695458WY 1588901.0 1550.0 134273.0 134273.0 1426548.0 277.0 125426.0 125426.0 NaN NaN NaN NaN NaN NaN NaN NaN 19892.0 1.0 1819.0 1819.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1530.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 215.0 NaN NaN NaN NaN 263263.0 2823.0 NaN NaN NaN NaN NaN 2.0 NaN NaN NaN 266086.0 NaN NaN NaN NaN NaN 266086.0 NaN NaN NaN NaN NaN 1095.0 NaN 51368 2022 Wyoming 17696301WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 234285.0 2.0 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5450009.0 NaN NaN NaN 5450009.0 NaN NaN NaN NaN NaN 1050.0 NaN 51369 2022 Wyoming 17699910WY NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 120000000.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN [51370 rows x 88 columns]

They seem to be the same if you df.compare() the two as well.

Thanks. I was looking for a built-in function and it wasn't a simple transpose. I've worked this in but need to get the pre-commit hooks passing. Will chip away at this over the next few days.

davidmudrauskas · 2024-04-25T02:41:58Z

This was helpful for validating raw inputs before tackling how to work with them, but I think I want to adapt this to just validate the output of the transposition function above. Planning to do that and roll it into the validate_totals function above for US-, state-, and other level aggregations.

jdangerx · 2024-05-22T15:26:41Z

You can use numpy.isclose() for comparing floats without rounding off to 2 decimal points everywhere!

davidmudrauskas · 2024-04-25T02:48:20Z

Other ideas on validations to cover here as an asset check? I also see reasonable boundaries invalidate/gens_eia860_test.py and could pursue something similar for eia176.

I don't really know much about the actual semantics of the gas data - I think a reasonable thing to do is graph some of the different variables over time and see if anything jumps out as "suspicious", then bring that up and we can try to research that together.

Happy to just get min, max, and enumerated values based on data so far to validate against, maybe in a follow-up.

This sounds like a perfect follow-up PR!

jdangerx · 2024-05-22T15:24:13Z

Should be able to! In my mind, asset checks are just assets, which can be called directly...

-Original file line number
+Diff line change
@@ -0,0 +1,76 @@
+    """Module to perform data cleaning functions on EIA176 data tables."""
+    import warnings
+    import pandas as pd
+    from dagster import ExperimentalWarning, asset, asset_check
+    from pudl.logging_helpers import get_logger
+    logger = get_logger(__name__)
+    # Asset Checks are still Experimental, silence the warning since we use them
+    # everywhere.
+    warnings.filterwarnings("ignore", category=ExperimentalWarning)
+    @asset
+    def _core_eia176__data(raw_eia176__data: pd.DataFrame) -> pd.DataFrame:
+        """Take entity-attribute-value rows and convert to rows with primary key and one column per variable."""
+        raw_eia176__data["variable_name"] = (
+            raw_eia176__data["line"] + "_" + raw_eia176__data["atype"]
+        )
+        primary_key = ["report_year", "area", "id"]
+        variable_names = list(raw_eia176__data.groupby("variable_name").count().index)
+        wide_table = pd.DataFrame(columns=primary_key + variable_names)
+        granular_data = raw_eia176__data[
+            (raw_eia176__data["company"] != " Total of All Companies")
+        ]
+        for report_year, area, id_ in granular_data.groupby(primary_key).count().index:
+            # Get the data corresponding to one completed form EIA-176
+            form_data = granular_data[
+                (granular_data["report_year"] == report_year)
+                & (granular_data["area"] == area)
+                & (granular_data["id"] == id_)
+            ]
+            wide_row = {"report_year": report_year, "area": area, "id": id_}
+            # Translate each piece of data entered into the form into its own column
+            for record in form_data.iterrows():
+                form_row = record[1]
+                wide_row[form_row["variable_name"]] = form_row["value"]
+            wide_table.loc[len(wide_table.index)] = wide_row
+        return wide_table
+    @asset_check(asset=_core_eia176__data, blocking=True)
+    def validate_totals():
+        """Compare reported and calculated totals for different geographical aggregates, report any differences."""
+    def _compare_totals(
+        reported_totals: pd.DataFrame,
+        calculated_totals: pd.DataFrame,
+        groupby_cols: list[str],
+    ) -> pd.DataFrame:
+        """Compare two dataframes representing reporting and calculated totals."""
+        reset_calculated = (
+            calculated_totals.sort_values(by=groupby_cols)
+            .reset_index()[groupby_cols + ["value"]]
+            .round(2)
+        )
+        reset_reported = (
+            reported_totals.sort_values(by=groupby_cols)
+            .reset_index()[groupby_cols + ["value"]]
+            .fillna(0)
+        )
+        return reset_calculated.compare(reset_reported)
+    # TODO: Reasonable boundaries -- in a script/notebook in the 'validate' directory? How are those executed?

-Original file line number
+Diff line change
@@ -0,0 +1,87 @@
+    import pandas as pd
+    from pudl.transform.eia176 import _compare_totals, _core_eia176__data
+    def get_test_df():
+        col_names = ["area", "atype", "company", "id", "line", "report_year", "value"]
+        df = pd.DataFrame(columns=col_names)
+        df.loc[0] = [
+            "New Mexico",
+            "VL",
+            "ZIA NATURAL GAS",
+            "17635019NM",
+            "1010",
+            "2022",
+            2013231.0,
+        ]
+        df.loc[1] = [
+            "New Mexico",
+            "VL",
+            " Total of All Companies",
+            "17635019NM",
+            "1010",
+            "2022",
+            2013231.0,
+        ]
+        return df
+    def test_core_eia176__data():
+        eav_model = get_test_df()
+        wide_table = _core_eia176__data(eav_model)
+        assert wide_table.shape == (1, 4)
+        row = wide_table.loc[0]
+        assert list(row.index) == ["report_year", "area", "id", "1010_VL"]
+        assert list(row.values) == ["2022", "New Mexico", "17635019NM", 2013231.0]
+    def test_compare_totals_no_diff():
+        states_df = get_test_df()
+        states_df.loc[2] = [
+            "New Mexico",
+            "VL",
+            "ANOTHER COMPANY",
+            "12345679NM",
+            "1010",
+            "2022",
+.0,
+        ]
+        states_df.loc[1, "value"] += 1
+        reported_state_totals = states_df[states_df["company"] == " Total of All Companies"]
+        state_companies_df = states_df[states_df["company"] != " Total of All Companies"]
+        state_level_cols = ["report_year", "area", "line", "atype"]
+        calculated_state_totals = state_companies_df.groupby(state_level_cols).sum()
+        assert _compare_totals(
+            reported_state_totals, calculated_state_totals, state_level_cols
+        ).empty
+    # TODO: Test on specific details here
+    def test_compare_totals_diff():
+        states_df = get_test_df()
+        states_df.loc[2] = [
+            "New Mexico",
+            "VL",
+            "ANOTHER COMPANY",
+            "12345679NM",
+            "1010",
+            "2022",
+.0,
+        ]
+        reported_state_totals = states_df[states_df["company"] == " Total of All Companies"]
+        state_companies_df = states_df[states_df["company"] != " Total of All Companies"]
+        state_level_cols = ["report_year", "area", "line", "atype"]
+        calculated_state_totals = state_companies_df.groupby(state_level_cols).sum()
+        assert not _compare_totals(
+            reported_state_totals, calculated_state_totals, state_level_cols
+        ).empty
+    # TODO: Implement, if we can even unit-test a function annotated as an asset check
+    def test_validate__totals():
+        pass

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Eia176 wide table #3590

Diff view

Diff view

There are no files selected for viewing

jdangerx May 22, 2024

jdangerx May 22, 2024

jdangerx May 22, 2024

davidmudrauskas Jun 21, 2024

davidmudrauskas Apr 25, 2024

jdangerx May 22, 2024

davidmudrauskas Apr 25, 2024

jdangerx May 22, 2024

davidmudrauskas Oct 16, 2024

jdangerx Nov 8, 2024

jdangerx May 22, 2024

Eia176 wide table #3590

Are you sure you want to change the base?

Eia176 wide table #3590

Diff view

Diff view

There are no files selected for viewing

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment