mapping fix for labeller

Nitish1814 · web-flow · commit 64ad943063f4 · 2025-02-14T10:13:40.000+05:30
* added cache * changes * added select to make original order * added cache * Case normalize (zinggAI#1027) * added Case normalizer preprocessor * removed toLowerCase() in sim call() * fixed junits * added junits for case normalizer * added for spark driver memory in spark session builder * added log * added log * logged memory in GB * abstracted out stopWord files names * added logging * added exception * made join on both id and cluster * test not needed as we are already case normalizing at start
diff --git a/common/client/src/main/java/zingg/common/client/util/DSUtil.java b/common/client/src/main/java/zingg/common/client/util/DSUtil.java
@@ -271,17 +271,28 @@ public ZFrame<D,R,C> postprocess(ZFrame<D,R,C> actual, ZFrame<D,R,C> orig) {
 	public ZFrame<D,R,C> postProcessLabel(ZFrame<D,R,C> updatedLabelledRecords, ZFrame<D,R,C> unmarkedRecords) {
 		List<C> cols = new ArrayList<C>();
 		cols.add(updatedLabelledRecords.col(ColName.ID_COL));
+		cols.add(updatedLabelledRecords.col(ColName.CLUSTER_COLUMN));
 
 		String[] unmarkedRecordColumns = unmarkedRecords.columns();
 
 		//drop isMatch column from unMarked records
 		//and replace with updated isMatch column
 		cols.add(updatedLabelledRecords.col(ColName.MATCH_FLAG_COL));
-		ZFrame<D,R,C> zFieldsFromUpdatedLabelledRecords = updatedLabelledRecords.select(cols);
+		ZFrame<D,R,C> zFieldsFromUpdatedLabelledRecords = updatedLabelledRecords.select(cols).
+				withColumnRenamed(ColName.ID_COL, ColName.COL_PREFIX + ColName.ID_COL).
+				withColumnRenamed(ColName.CLUSTER_COLUMN, ColName.COL_PREFIX + ColName.CLUSTER_COLUMN);
+
 		unmarkedRecords = unmarkedRecords.drop(ColName.MATCH_FLAG_COL);
 
+		/*
+			join on z_id and z_cluster
+		 */
+		C joinCondition1 = unmarkedRecords.equalTo(unmarkedRecords.col(ColName.ID_COL), zFieldsFromUpdatedLabelledRecords.col(ColName.COL_PREFIX + ColName.ID_COL));
+		C joinCondition2 = unmarkedRecords.equalTo(unmarkedRecords.col(ColName.CLUSTER_COLUMN), zFieldsFromUpdatedLabelledRecords.col(ColName.COL_PREFIX + ColName.CLUSTER_COLUMN));
+		C joinCondition = unmarkedRecords.and(joinCondition1, joinCondition2);
+
 		//we are selecting columns to bring back to original shape
-		return unmarkedRecords.joinOnCol(zFieldsFromUpdatedLabelledRecords, ColName.ID_COL).select(unmarkedRecordColumns);
+		return unmarkedRecords.join(zFieldsFromUpdatedLabelledRecords, joinCondition, "inner").select(unmarkedRecordColumns);
 	}
 
 
diff --git a/common/core/src/main/java/zingg/common/core/executor/Trainer.java b/common/core/src/main/java/zingg/common/core/executor/Trainer.java
@@ -31,7 +31,6 @@ public void execute() throws ZinggClientException {
 			ZFrame<D,R,C> traOriginal = getDSUtil().getTraining(getPipeUtil(), args, getModelHelper());
 			ZFrame<D,R,C> tra = preprocess(traOriginal).cache();
 			tra = getDSUtil().joinWithItself(tra, ColName.CLUSTER_COLUMN, true);
-			tra = tra.cache();
 			positives = tra.filter(tra.equalTo(ColName.MATCH_FLAG_COL,ColValues.MATCH_TYPE_MATCH));
 			negatives = tra.filter(tra.equalTo(ColName.MATCH_FLAG_COL,ColValues.MATCH_TYPE_NOT_A_MATCH));
 			
diff --git a/common/core/src/main/java/zingg/common/core/similarity/function/OnlyAlphabetsExactSimilarity.java b/common/core/src/main/java/zingg/common/core/similarity/function/OnlyAlphabetsExactSimilarity.java
@@ -36,7 +36,7 @@ public Double call(String first, String second) {
 			if (score1 != 1.0d && score2 != 1.0d) {
 				first = first.replaceAll("[0-9.]", "");
 				second = second.replaceAll("[0-9.]", "");
-				score = first.equalsIgnoreCase(second)? 1.0d : 0.0d;
+				score = first.equals(second)? 1.0d : 0.0d;
 			}
 			else {
 				score = 1.0d;
diff --git a/common/core/src/main/java/zingg/common/core/similarity/function/PinCodeMatchTypeFunction.java b/common/core/src/main/java/zingg/common/core/similarity/function/PinCodeMatchTypeFunction.java
@@ -25,7 +25,7 @@ public Double call(String first, String second) {
 		if (second == null || second.trim().length() ==0) return 1d;
 		first = first.split("-")[0];
 		second = second.split("-")[0];
-		double score = first.trim().equalsIgnoreCase(second.trim()) ? 1d : 0d;
+		double score = first.trim().equals(second.trim()) ? 1d : 0d;
 		return score;		
 	}	
 }
diff --git a/common/core/src/main/java/zingg/common/core/similarity/function/StringSimilarityDistanceFunction.java b/common/core/src/main/java/zingg/common/core/similarity/function/StringSimilarityDistanceFunction.java
@@ -26,7 +26,7 @@ public AbstractStringDistance getDistanceFunction(){
 	public Double call(String first, String second) {
 		if (first == null || first.trim().length() ==0) return 1d;
 		if (second == null || second.trim().length() ==0) return 1d;
-		if (first.equalsIgnoreCase(second)) return 1d;
+		if (first.equals(second)) return 1d;
 		double score = getDistanceFunction().score(first, second);
 		if (Double.isNaN(score)) return 0d; 
 		//LOG.warn(" score  " + gap +  " " + first + " " + second + " is " + score);
diff --git a/common/core/src/main/java/zingg/common/core/similarity/function/StringSimilarityFunction.java b/common/core/src/main/java/zingg/common/core/similarity/function/StringSimilarityFunction.java
@@ -22,7 +22,7 @@ public StringSimilarityFunction(String name) {
 	public Double call(String first, String second) {
 		if (first == null || first.trim().length() ==0) return 1d;
 		if (second == null || second.trim().length() ==0) return 1d;
-		double score = first.trim().equalsIgnoreCase(second.trim()) ? 1d : 0d;
+		double score = first.trim().equals(second.trim()) ? 1d : 0d;
 		return score;		
 	}
 
diff --git a/common/core/src/test/java/zingg/common/core/similarity/function/TestOnlyAlphabetsExactSimilarity.java b/common/core/src/test/java/zingg/common/core/similarity/function/TestOnlyAlphabetsExactSimilarity.java
@@ -33,9 +33,4 @@ public void testDiffNoNumber() {
 		assertEquals(0d, sim.call("I have a no number", "I have r number"));
 	}	
 
-	@Test
-	public void testSameIgnoreCase() {
-		OnlyAlphabetsExactSimilarity sim = new OnlyAlphabetsExactSimilarity();
-		assertEquals(1d, sim.call("I have 1 number", "I HAVE 2 number"));
-	}
 }
diff --git a/spark/core/src/main/java/zingg/spark/core/executor/SparkMatcher.java b/spark/core/src/main/java/zingg/spark/core/executor/SparkMatcher.java
@@ -25,7 +25,7 @@
  * 
  *
  */
-public class SparkMatcher extends Matcher<SparkSession,Dataset<Row>,Row,Column,DataType> implements ISparkPreprocMapSupplier{
+public class SparkMatcher extends Matcher<SparkSession,Dataset<Row>,Row,Column,DataType> implements ISparkPreprocMapSupplier {
 
 
 	private static final long serialVersionUID = 1L;
diff --git a/spark/core/src/main/java/zingg/spark/core/preprocess/caseNormalize/SparkCaseNormalizer.java b/spark/core/src/main/java/zingg/spark/core/preprocess/caseNormalize/SparkCaseNormalizer.java
@@ -31,6 +31,7 @@ public SparkCaseNormalizer(IContext<SparkSession, Dataset<Row>, Row, Column, Dat
 
     @Override
     protected ZFrame<Dataset<Row>, Row, Column> applyCaseNormalizer(ZFrame<Dataset<Row>, Row, Column> incomingDataFrame, List<String> relevantFields) {
+        String[] incomingDFColumns = incomingDataFrame.columns();
         Seq<String> columnsSeq = JavaConverters.asScalaIteratorConverter(relevantFields.iterator())
                 .asScala()
                 .toSeq();
@@ -41,6 +42,6 @@ protected ZFrame<Dataset<Row>, Row, Column> applyCaseNormalizer(ZFrame<Dataset<R
         Seq<Column> caseNormalizedSeq = JavaConverters.asScalaIteratorConverter(caseNormalizedValues.iterator())
                 .asScala()
                 .toSeq();
-        return new SparkFrame(incomingDataFrame.df().withColumns(columnsSeq, caseNormalizedSeq));
+        return new SparkFrame(incomingDataFrame.df().withColumns(columnsSeq, caseNormalizedSeq)).select(incomingDFColumns);
     }
 }
diff --git a/spark/core/src/test/java/zingg/spark/core/executor/labeller/ProgrammaticSparkLabeller.java b/spark/core/src/test/java/zingg/spark/core/executor/labeller/ProgrammaticSparkLabeller.java
@@ -13,8 +13,9 @@
 import zingg.common.core.executor.labeller.ProgrammaticLabeller;
 import zingg.spark.core.context.ZinggSparkContext;
 import zingg.spark.core.executor.SparkLabeller;
+import zingg.spark.core.preprocess.ISparkPreprocMapSupplier;
 
-public class ProgrammaticSparkLabeller extends SparkLabeller {
+public class ProgrammaticSparkLabeller extends SparkLabeller implements ISparkPreprocMapSupplier {
 
 	private static final long serialVersionUID = 1L;
 

Original file line number	Diff line number	Diff line change
`@@ -36,7 +36,7 @@ public Double call(String first, String second) {`
`36`	`36`	`if (score1 != 1.0d && score2 != 1.0d) {`
`37`	`37`	`first = first.replaceAll("[0-9.]", "");`
`38`	`38`	`second = second.replaceAll("[0-9.]", "");`
`39`		`- score = first.equalsIgnoreCase(second)? 1.0d : 0.0d;`
	`39`	`+ score = first.equals(second)? 1.0d : 0.0d;`
`40`	`40`	`}`
`41`	`41`	`else {`
`42`	`42`	`score = 1.0d;`
Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@ public Double call(String first, String second) {`
`25`	`25`	`if (second == null \|\| second.trim().length() ==0) return 1d;`
`26`	`26`	`first = first.split("-")[0];`
`27`	`27`	`second = second.split("-")[0];`
`28`		`- double score = first.trim().equalsIgnoreCase(second.trim()) ? 1d : 0d;`
	`28`	`+ double score = first.trim().equals(second.trim()) ? 1d : 0d;`
`29`	`29`	`return score;`
`30`	`30`	`}`
`31`	`31`	`}`
Original file line number	Diff line number	Diff line change
`@@ -22,7 +22,7 @@ public StringSimilarityFunction(String name) {`
`22`	`22`	`public Double call(String first, String second) {`
`23`	`23`	`if (first == null \|\| first.trim().length() ==0) return 1d;`
`24`	`24`	`if (second == null \|\| second.trim().length() ==0) return 1d;`
`25`		`- double score = first.trim().equalsIgnoreCase(second.trim()) ? 1d : 0d;`
	`25`	`+ double score = first.trim().equals(second.trim()) ? 1d : 0d;`
`26`	`26`	`return score;`
`27`	`27`	`}`
`28`	`28`
Original file line number	Diff line number	Diff line change
`@@ -33,9 +33,4 @@ public void testDiffNoNumber() {`
`33`	`33`	`assertEquals(0d, sim.call("I have a no number", "I have r number"));`
`34`	`34`	`}`
`35`	`35`
`36`		`- @Test`
`37`		`- public void testSameIgnoreCase() {`
`38`		`- OnlyAlphabetsExactSimilarity sim = new OnlyAlphabetsExactSimilarity();`
`39`		`- assertEquals(1d, sim.call("I have 1 number", "I HAVE 2 number"));`
`40`		`- }`
`41`	`36`	`}`
Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@`
`25`	`25`	`*`
`26`	`26`	`*`
`27`	`27`	`*/`
`28`		`-public class SparkMatcher extends Matcher<SparkSession,Dataset<Row>,Row,Column,DataType> implements ISparkPreprocMapSupplier{`
	`28`	`+public class SparkMatcher extends Matcher<SparkSession,Dataset<Row>,Row,Column,DataType> implements ISparkPreprocMapSupplier {`
`29`	`29`
`30`	`30`
`31`	`31`	`private static final long serialVersionUID = 1L;`
Original file line number	Diff line number	Diff line change
`@@ -31,6 +31,7 @@ public SparkCaseNormalizer(IContext<SparkSession, Dataset<Row>, Row, Column, Dat`
`31`	`31`
`32`	`32`	`@Override`
`33`	`33`	`protected ZFrame<Dataset<Row>, Row, Column> applyCaseNormalizer(ZFrame<Dataset<Row>, Row, Column> incomingDataFrame, List<String> relevantFields) {`
	`34`	`+ String[] incomingDFColumns = incomingDataFrame.columns();`
`34`	`35`	`Seq<String> columnsSeq = JavaConverters.asScalaIteratorConverter(relevantFields.iterator())`
`35`	`36`	`.asScala()`
`36`	`37`	`.toSeq();`
`@@ -41,6 +42,6 @@ protected ZFrame<Dataset<Row>, Row, Column> applyCaseNormalizer(ZFrame<Dataset<R`
`41`	`42`	`Seq<Column> caseNormalizedSeq = JavaConverters.asScalaIteratorConverter(caseNormalizedValues.iterator())`
`42`	`43`	`.asScala()`
`43`	`44`	`.toSeq();`
`44`		`- return new SparkFrame(incomingDataFrame.df().withColumns(columnsSeq, caseNormalizedSeq));`
	`45`	`+ return new SparkFrame(incomingDataFrame.df().withColumns(columnsSeq, caseNormalizedSeq)).select(incomingDFColumns);`
`45`	`46`	`}`
`46`	`47`	`}`