USEPA · hillarymarler · Aug 30, 2024 · Aug 30, 2024 · Aug 30, 2024 · Sep 6, 2024
diff --git a/R/CriteriaComparison.R b/R/CriteriaComparison.R
@@ -181,15 +181,17 @@ TADA_CreatePairRef <- function(.data, ph = TRUE, hardness = TRUE, temp = TRUE,
 #' Pair Results for Numeric Criteria Calculation (UNDER ACTIVE DEVELOPMENT)
 #'
 #' This function pairs TADA results with results from specified characteristics from the same
-#' MonitoringLocation within a user-specified time window to facilitate the calculation of numeric
-#' criteria. The columns created by TADA_AutoClean are required to run this function. If they are not
-#' present in the data frame, the function will stop and print an error message.
+#' TADA.MonitoringLocation within a user-specified time window to facilitate the calculation of 
+#' numeric criteria. The columns created by TADA_AutoClean are required to run this function. If 
+#' they are not present in the data frame, the function will stop and print an error message.
 #'
 #' Users can provide a pairing reference file (can be created using TADA_CreatePairRef) to specify
 #' which combinations of TADA.CharacteristicName, TADA.ResultMeasure.MeasureUnit,
 #' TADA.MethodSpeciationName, and TADA.ResultSampleFractionText should be used for hardness, pH,
-#' temperature, salinity, chloride or other user-defined groups. If no ref is specified, all possible
-#' combinations for hardness, pH, temperature, salinity and chloride will be used.
+#' temperature, salinity, chloride or other user-defined groups. If no ref is specified, all 
+#' possible combinations for hardness, pH, temperature, salinity and chloride will be used. It is
+#' highly reccomended that users perform all unit conversion and synonym harmonization before using
+#' TADA_PairForCriteriaCalc.
 #'
 #' @param .data TADA dataframe
 #'
@@ -277,7 +279,7 @@ TADA_PairForCriteriaCalc <- function(.data, ref = "null", hours_range = 4) {
       ) %>%
       dplyr::select(
         TADA.CharacteristicName, TADA.ResultMeasureValue, TADA.ResultMeasure.MeasureUnitCode,
-        ActivityIdentifier, MonitoringLocationIdentifier, ActivityStartDateTime,
+        ActivityIdentifier, TADA.MonitoringLocationIdentifier, ActivityStartDateTime,
         TADA.ResultSampleFractionText, TADA.MethodSpeciationName
       ) %>%
       dplyr::left_join(ref.subset,
@@ -335,11 +337,11 @@ TADA_PairForCriteriaCalc <- function(.data, ref = "null", hours_range = 4) {
       dplyr::filter(
         !ResultIdentifier %in% pair.activityid$ResultIdentifier,
         !is.na(ActivityStartDateTime),
-        MonitoringLocationIdentifier %in% pair.subset$MonitoringLocationIdentifier
+        TADA.MonitoringLocationIdentifier %in% pair.subset$TADA.MonitoringLocationIdentifier
       ) %>%
       dplyr::left_join(pair.subset2,
         relationship = "many-to-many",
-        by = dplyr::join_by(MonitoringLocationIdentifier)
+        by = dplyr::join_by(TADA.MonitoringLocationIdentifier)
       ) %>%
       dplyr::group_by(ResultIdentifier) %>%
       # Figure out fastest time comparison method - needs to be absolute time comparison

diff --git a/R/DepthProfile.R b/R/DepthProfile.R
diff --git a/R/Figures.R b/R/Figures.R
diff --git a/R/Filtering.R b/R/Filtering.R
@@ -44,7 +44,7 @@ TADA_FieldCounts <- function(.data, display = c("key", "most", "all"), character
       "ActivityMediaSubdivisionName",
       "ActivityCommentText",
       "ResultCommentText",
-      "MonitoringLocationTypeName",
+      "TADA.MonitoringLocationTypeName",
       "StateCode",
       "OrganizationFormalName",
       "TADA.CharacteristicName",
@@ -79,8 +79,10 @@ TADA_FieldCounts <- function(.data, display = c("key", "most", "all"), character
       "ActivityRelativeDepthName",
       "ProjectIdentifier",
       "ProjectName",
+      "TADA.MonitoringLocationIdentifier",
       "MonitoringLocationIdentifier",
       "MonitoringLocationName",
+      "MonitoringLocationTypeName",
       "ActivityCommentText",
       "SampleAquifer",
       "HydrologicCondition",
@@ -112,7 +114,6 @@ TADA_FieldCounts <- function(.data, display = c("key", "most", "all"), character
       "ResultDetectionQuantitationLimitUrl",
       "DetectionQuantitationLimitTypeName",
       "ProviderName",
-      "MonitoringLocationTypeName",
       "MonitoringLocationDescriptionText",
       "HUCEightDigitCode",
       "HorizontalCollectionMethodName",
@@ -191,10 +192,14 @@ TADA_FieldValuesTable <- function(.data, field = "null", characteristicName = "n
   if (!field %in% names(.data)) {
     stop("Field input does not exist in dataset. Please populate the 'field' argument with a valid field name. Enter ?TADA_FieldValuesTable in console for more information.")
   }
+
+  # change NAs to "NA" (character string)
+  .data[[field]][is.na(.data[[field]])] <- "NA"
 
   # filter to characteristic if provided
   if (!characteristicName %in% c("null")) {
-    .data <- subset(.data, .data$TADA.CharacteristicName %in% c(characteristicName))
+    .data <- .data %>%
+      dplyr::filter(TADA.CharacteristicName %in% characteristicName)
     if (dim(.data)[1] < 1) {
       stop("Characteristic name(s) provided are not contained within the input dataset. Note that TADA converts characteristic names to ALL CAPS for easier harmonization.")
     }
@@ -282,11 +287,9 @@ TADA_AnalysisDataFilter <- function(.data,
   # import MonitoringLocationTypeNames and TADA.Media.Flags
   sw.sitetypes <- utils::read.csv(system.file("extdata", "WQXMonitoringLocationTypeNameRef.csv", package = "EPATADA")) %>%
     dplyr::select(Name, TADA.Media.Flag) %>%
-    dplyr::rename(
-      ML.Media.Flag = TADA.Media.Flag,
-      MonitoringLocationTypeName = Name
-    )
-
+    dplyr::rename(ML.Media.Flag = TADA.Media.Flag) %>%
+    dplyr::mutate(MonitoringLocationTypeName = toupper(Name)) %>%
+    dplyr::select(-Name)
 
   # add TADA.Media.Flag column
   .data <- .data %>%
@@ -304,7 +307,7 @@ TADA_AnalysisDataFilter <- function(.data,
       ActivityMediaSubdivisionName == "Surface Water" ~ "Surface Water",
       !ActivityMediaName %in% c("WATER", "Water", "water") ~ ActivityMediaName
     )) %>%
-    # add TADA.Media.Flag for additional rows based on MonitoringLocationTypeName
+    # add TADA.Media.Flag for additional rows based on TADA.MonitoringLocationTypeName
     dplyr::left_join(sw.sitetypes, by = "MonitoringLocationTypeName") %>%
     dplyr::mutate(
       TADA.Media.Flag = ifelse(is.na(TADA.Media.Flag),

diff --git a/R/RequiredCols.R b/R/RequiredCols.R
@@ -170,7 +170,9 @@ require.cols <- c(
   "StateCode",
   "CountyCode",
   "MonitoringLocationName", # required
+  "TADA.MonitoringLocationName", # generated
   "MonitoringLocationTypeName",
+  "TADA.MonitoringLocationTypeName", #generated
   "MonitoringLocationDescriptionText",
   "LatitudeMeasure",
   "TADA.LatitudeMeasure", # generated

diff --git a/R/Tables.R b/R/Tables.R
@@ -21,7 +21,7 @@ TADA_SummarizeColumn <- function(.data, col = "TADA.CharacteristicName") {
   wqp_summary <- .data %>%
     dplyr::group_by(summ) %>%
     dplyr::summarize(
-      n_sites = length(unique(MonitoringLocationIdentifier)),
+      n_sites = length(unique(TADA.MonitoringLocationIdentifier)),
       n_records = length(TADA.ResultMeasureValue),
       .groups = "drop"
     ) %>%
@@ -51,16 +51,16 @@ TADA_SummarizeColumn <- function(.data, col = "TADA.CharacteristicName") {
 #'   columns 'TADA.ResultMeasureValue', 'TADA.ResultMeasure.MeasureUnitCode',
 #'   'TADA.ResultSampleFractionText', 'TADA.MethodSpeciationName',
 #'   'TADA.ComparableDataIdentifier', 'TADA.CensoredData.Flag',
-#'   'DetectionQuantitationLimitTypeName', and 'MonitoringLocationIdentifier' to
+#'   'DetectionQuantitationLimitTypeName', and 'TADA.MonitoringLocationIdentifier' to
 #'   run this function. The 'TADA.ComparableDataIdentifier' can be added to the
 #'   data frame by running the function TADA_CreateComparableID().
 #'
 #' @param group_cols This function automatically uses
 #'   'TADA.ComparableDataIdentifier' as a grouping column. However, the user may
 #'   want to summarize their dataset by additional grouping columns. For
 #'   example, a user may want to create a summary table where each row is
-#'   specific to one comparable data identifier AND one monitoring location.
-#'   This input would look like: group_cols = c("MonitoringLocationIdentifier")
+#'   specific to one comparable data identifier AND one TADA monitoring location.
+#'   This input would look like: group_cols = c("TADA.MonitoringLocationIdentifier")
 #'
 #' @return stats table
 #'
@@ -92,7 +92,7 @@ TADA_Stats <- function(.data, group_cols = c("TADA.ComparableDataIdentifier")) {
     dplyr::filter(!is.na(TADA.ResultMeasureValue)) %>%
     dplyr::group_by(dplyr::across(dplyr::all_of(group_cols))) %>%
     dplyr::summarize(
-      Location_Count = length(unique(MonitoringLocationIdentifier)),
+      Location_Count = length(unique(TADA.MonitoringLocationIdentifier)),
       Measurement_Count = length(unique(ResultIdentifier)),
       Non_Detect_Count = length(TADA.CensoredData.Flag[TADA.CensoredData.Flag %in% c("Non-Detect")]),
       Non_Detect_Pct = length(TADA.CensoredData.Flag[TADA.CensoredData.Flag %in% c("Non-Detect")]) / length(TADA.CensoredData.Flag) * 100,

diff --git a/R/Transformations.R b/R/Transformations.R
@@ -233,7 +233,7 @@ TADA_HarmonizeSynonyms <- function(.data, ref, np_speciation = TRUE) {
 #' @param .data TADA dataframe, ideally harmonized using TADA_HarmonizeSynonyms.
 #'   If user wants to consider grouping N or P subspecies across multiple
 #'   organizations, user should have run TADA_FindNearbySites and grouped all
-#'   nearby sites to one common MonitoringLocationIdentifier,
+#'   nearby sites to one common TADA.MonitoringLocationIdentifier,
 #'   TADA.LatitudeMeasure, TADA.LongitudeMeasure, etc.
 #' @param sum_ref Optional. A custom summation reference dataframe the user has
 #'   loaded into the R environment. Dataframe must have same columns as default
@@ -267,7 +267,7 @@ TADA_CalculateTotalNP <- function(.data, sum_ref, daily_agg = c("max", "min", "m
     "TADA.ResultMeasure.MeasureUnitCode",
     "TADA.ResultMeasureValue",
     "ActivityStartDate",
-    "MonitoringLocationIdentifier",
+    "TADA.MonitoringLocationIdentifier",
     "ActivityTypeCode"
   )
   TADA_CheckColumns(.data, expected_cols = req_cols)
@@ -293,7 +293,7 @@ TADA_CalculateTotalNP <- function(.data, sum_ref, daily_agg = c("max", "min", "m
     "ActivityStartDate",
     # "ActivityStartDateTime", #does not make sense to include for daily agg
     "ActivityRelativeDepthName",
-    "MonitoringLocationIdentifier",
+    "TADA.MonitoringLocationIdentifier",
     "MonitoringLocationName",
     "TADA.LongitudeMeasure",
     "TADA.LatitudeMeasure",
@@ -317,7 +317,7 @@ TADA_CalculateTotalNP <- function(.data, sum_ref, daily_agg = c("max", "min", "m
     thecols <- grpcols[!grpcols %in% c("TADA.ComparableDataIdentifier")]
 
     # # find nearby sites
-    # nearsites = unique(sum_dat[,c("MonitoringLocationIdentifier","TADA.LatitudeMeasure","TADA.LongitudeMeasure")])
+    # nearsites = unique(sum_dat[,c("TADA.MonitoringLocationIdentifier","TADA.LatitudeMeasure","TADA.LongitudeMeasure")])
     # nearsites = TADA_FindNearbySites(nearsites)
     # nearsites = subset(nearsites, !nearsites$TADA.NearbySiteGroups%in%c("No nearby sites"))