[spark] Disable v2 write in v1 append location unit tests

kerwin-zk · kerwin-zk · commit f5a9f7cb0ca7 · 2025-09-24T23:36:56.000+08:00
diff --git a/.github/workflows/utitcase-spark-3.x.yml b/.github/workflows/utitcase-spark-3.x.yml
@@ -63,7 +63,7 @@ jobs:
           jvm_timezone=$(random_timezone)
           echo "JVM timezone is set to $jvm_timezone"
           test_modules=""
-          for suffix in ut 3.5 3.4 3.3 3.2; do
+          for suffix in ut 3.5 3.4; do
           test_modules+="org.apache.paimon:paimon-spark-${suffix}_${{ matrix.scala_version }},"
           done
           test_modules="${test_modules%,}"
diff --git a/paimon-format/src/main/java/org/apache/parquet/hadoop/ParquetWriter.java b/paimon-format/src/main/java/org/apache/parquet/hadoop/ParquetWriter.java
@@ -21,6 +21,8 @@
 import org.apache.hadoop.conf.Configuration;
 import org.apache.parquet.column.ParquetProperties;
 import org.apache.parquet.column.ParquetProperties.WriterVersion;
+import org.apache.parquet.conf.HadoopParquetConfiguration;
+import org.apache.parquet.conf.ParquetConfiguration;
 import org.apache.parquet.crypto.FileEncryptionProperties;
 import org.apache.parquet.hadoop.api.WriteSupport;
 import org.apache.parquet.hadoop.metadata.CompressionCodecName;
@@ -69,7 +71,8 @@ public class ParquetWriter<T> implements Closeable {
             int maxPaddingSize,
             ParquetProperties encodingProps)
             throws IOException {
-        WriteSupport.WriteContext writeContext = writeSupport.init(conf);
+        HadoopParquetConfiguration parquetConf = new HadoopParquetConfiguration(conf);
+        WriteSupport.WriteContext writeContext = writeSupport.init(parquetConf);
         MessageType schema = writeContext.getSchema();
 
         ParquetFileWriter fileWriter =
diff --git a/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/PaimonSinkTest.scala b/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/PaimonSinkTest.scala
@@ -29,7 +29,9 @@ import java.sql.Date
 class PaimonSinkTest extends PaimonSparkTestBase with StreamTest {
 
   override protected def sparkConf: SparkConf = {
-    super.sparkConf.set("spark.sql.catalog.paimon.cache-enabled", "false")
+    super.sparkConf
+      .set("spark.sql.catalog.paimon.cache-enabled", "false")
+      .set("spark.paimon.write.use-v2-write", "false")
   }
 
   import testImplicits._
diff --git a/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/sql/CreateAndDeleteTagProcedureTest.scala b/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/sql/CreateAndDeleteTagProcedureTest.scala
@@ -29,107 +29,109 @@ class CreateAndDeleteTagProcedureTest extends PaimonSparkTestBase with StreamTes
   import testImplicits._
 
   test("Paimon Procedure: create and delete tag") {
-    failAfter(streamingTimeout) {
-      withTempDir {
-        checkpointDir =>
-          // define a pk table and test `forEachBatch` api
-          spark.sql(s"""
-                       |CREATE TABLE T (a INT, b STRING)
-                       |TBLPROPERTIES ('primary-key'='a', 'bucket'='3')
-                       |""".stripMargin)
-          val location = loadTable("T").location().toString
-
-          val inputData = MemoryStream[(Int, String)]
-          val stream = inputData
-            .toDS()
-            .toDF("a", "b")
-            .writeStream
-            .option("checkpointLocation", checkpointDir.getCanonicalPath)
-            .foreachBatch {
-              (batch: Dataset[Row], _: Long) =>
-                batch.write.format("paimon").mode("append").save(location)
+    withSparkSQLConf(("spark.paimon.write.use-v2-write", "false")) {
+      failAfter(streamingTimeout) {
+        withTempDir {
+          checkpointDir =>
+            // define a pk table and test `forEachBatch` api
+            spark.sql(s"""
+                         |CREATE TABLE T (a INT, b STRING)
+                         |TBLPROPERTIES ('primary-key'='a', 'bucket'='3')
+                         |""".stripMargin)
+            val location = loadTable("T").location().toString
+
+            val inputData = MemoryStream[(Int, String)]
+            val stream = inputData
+              .toDS()
+              .toDF("a", "b")
+              .writeStream
+              .option("checkpointLocation", checkpointDir.getCanonicalPath)
+              .foreachBatch {
+                (batch: Dataset[Row], _: Long) =>
+                  batch.write.format("paimon").mode("append").save(location)
+              }
+              .start()
+
+            val query = () => spark.sql("SELECT * FROM T ORDER BY a")
+
+            try {
+              // snapshot-1
+              inputData.addData((1, "a"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Nil)
+
+              // snapshot-2
+              inputData.addData((2, "b"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
+
+              // snapshot-3
+              inputData.addData((2, "b2"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "b2") :: Nil)
+              checkAnswer(
+                spark.sql(
+                  "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_tag', snapshot => 2)"),
+                Row(true) :: Nil)
+              checkAnswer(
+                spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
+                Row("test_tag") :: Nil)
+              // test rename_tag
+              checkAnswer(
+                spark.sql(
+                  "CALL paimon.sys.rename_tag(table => 'test.T', tag => 'test_tag', target_tag => 'test_tag_1')"),
+                Row(true) :: Nil)
+              checkAnswer(
+                spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
+                Row("test_tag_1") :: Nil)
+              checkAnswer(
+                spark.sql("CALL paimon.sys.delete_tag(table => 'test.T', tag => 'test_tag_1')"),
+                Row(true) :: Nil)
+              checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
+              checkAnswer(
+                spark.sql(
+                  "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_latestSnapshot_tag')"),
+                Row(true) :: Nil)
+              checkAnswer(
+                spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
+                Row("test_latestSnapshot_tag") :: Nil)
+              checkAnswer(
+                spark.sql(
+                  "CALL paimon.sys.delete_tag(table => 'test.T', tag => 'test_latestSnapshot_tag')"),
+                Row(true) :: Nil)
+              checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
+
+              // snapshot-4
+              inputData.addData((2, "c1"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "c1") :: Nil)
+
+              checkAnswer(
+                spark.sql("CALL paimon.sys.create_tag(table => 'test.T', tag => 's4')"),
+                Row(true) :: Nil)
+
+              // snapshot-5
+              inputData.addData((3, "c2"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "c1") :: Row(3, "c2") :: Nil)
+
+              checkAnswer(
+                spark.sql("CALL paimon.sys.create_tag(table => 'test.T', tag => 's5')"),
+                Row(true) :: Nil)
+
+              checkAnswer(
+                spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
+                Row("s4") :: Row("s5") :: Nil)
+
+              checkAnswer(
+                spark.sql("CALL paimon.sys.delete_tag(table => 'test.T', tag => 's4,s5')"),
+                Row(true) :: Nil)
+
+              checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
+            } finally {
+              stream.stop()
             }
-            .start()
-
-          val query = () => spark.sql("SELECT * FROM T ORDER BY a")
-
-          try {
-            // snapshot-1
-            inputData.addData((1, "a"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Nil)
-
-            // snapshot-2
-            inputData.addData((2, "b"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
-
-            // snapshot-3
-            inputData.addData((2, "b2"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "b2") :: Nil)
-            checkAnswer(
-              spark.sql(
-                "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_tag', snapshot => 2)"),
-              Row(true) :: Nil)
-            checkAnswer(
-              spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
-              Row("test_tag") :: Nil)
-            // test rename_tag
-            checkAnswer(
-              spark.sql(
-                "CALL paimon.sys.rename_tag(table => 'test.T', tag => 'test_tag', target_tag => 'test_tag_1')"),
-              Row(true) :: Nil)
-            checkAnswer(
-              spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
-              Row("test_tag_1") :: Nil)
-            checkAnswer(
-              spark.sql("CALL paimon.sys.delete_tag(table => 'test.T', tag => 'test_tag_1')"),
-              Row(true) :: Nil)
-            checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
-            checkAnswer(
-              spark.sql(
-                "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_latestSnapshot_tag')"),
-              Row(true) :: Nil)
-            checkAnswer(
-              spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
-              Row("test_latestSnapshot_tag") :: Nil)
-            checkAnswer(
-              spark.sql(
-                "CALL paimon.sys.delete_tag(table => 'test.T', tag => 'test_latestSnapshot_tag')"),
-              Row(true) :: Nil)
-            checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
-
-            // snapshot-4
-            inputData.addData((2, "c1"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "c1") :: Nil)
-
-            checkAnswer(
-              spark.sql("CALL paimon.sys.create_tag(table => 'test.T', tag => 's4')"),
-              Row(true) :: Nil)
-
-            // snapshot-5
-            inputData.addData((3, "c2"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "c1") :: Row(3, "c2") :: Nil)
-
-            checkAnswer(
-              spark.sql("CALL paimon.sys.create_tag(table => 'test.T', tag => 's5')"),
-              Row(true) :: Nil)
-
-            checkAnswer(
-              spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"),
-              Row("s4") :: Row("s5") :: Nil)
-
-            checkAnswer(
-              spark.sql("CALL paimon.sys.delete_tag(table => 'test.T', tag => 's4,s5')"),
-              Row(true) :: Nil)
-
-            checkAnswer(spark.sql("SELECT tag_name FROM paimon.test.`T$tags`"), Nil)
-          } finally {
-            stream.stop()
-          }
+        }
       }
     }
   }
diff --git a/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/sql/RollbackProcedureTest.scala b/paimon-spark/paimon-spark-3.4/src/test/scala/org/apache/paimon/spark/sql/RollbackProcedureTest.scala
@@ -29,68 +29,70 @@ class RollbackProcedureTest extends PaimonSparkTestBase with StreamTest {
   import testImplicits._
 
   test("Paimon Procedure: rollback to snapshot and tag") {
-    failAfter(streamingTimeout) {
-      withTempDir {
-        checkpointDir =>
-          // define a pk table and test `forEachBatch` api
-          spark.sql(s"""
-                       |CREATE TABLE T (a INT, b STRING)
-                       |TBLPROPERTIES ('primary-key'='a', 'bucket'='3')
-                       |""".stripMargin)
-          val location = loadTable("T").location().toString
+    withSparkSQLConf(("spark.paimon.write.use-v2-write", "false")) {
+      failAfter(streamingTimeout) {
+        withTempDir {
+          checkpointDir =>
+            // define a pk table and test `forEachBatch` api
+            spark.sql(s"""
+                         |CREATE TABLE T (a INT, b STRING)
+                         |TBLPROPERTIES ('primary-key'='a', 'bucket'='3')
+                         |""".stripMargin)
+            val location = loadTable("T").location().toString
 
-          val inputData = MemoryStream[(Int, String)]
-          val stream = inputData
-            .toDS()
-            .toDF("a", "b")
-            .writeStream
-            .option("checkpointLocation", checkpointDir.getCanonicalPath)
-            .foreachBatch {
-              (batch: Dataset[Row], _: Long) =>
-                batch.write.format("paimon").mode("append").save(location)
-            }
-            .start()
+            val inputData = MemoryStream[(Int, String)]
+            val stream = inputData
+              .toDS()
+              .toDF("a", "b")
+              .writeStream
+              .option("checkpointLocation", checkpointDir.getCanonicalPath)
+              .foreachBatch {
+                (batch: Dataset[Row], _: Long) =>
+                  batch.write.format("paimon").mode("append").save(location)
+              }
+              .start()
 
-          val table = loadTable("T")
-          val query = () => spark.sql("SELECT * FROM T ORDER BY a")
+            val table = loadTable("T")
+            val query = () => spark.sql("SELECT * FROM T ORDER BY a")
 
-          try {
-            // snapshot-1
-            inputData.addData((1, "a"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Nil)
+            try {
+              // snapshot-1
+              inputData.addData((1, "a"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Nil)
 
-            checkAnswer(
-              spark.sql(
-                "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_tag', snapshot => 1)"),
-              Row(true) :: Nil)
+              checkAnswer(
+                spark.sql(
+                  "CALL paimon.sys.create_tag(table => 'test.T', tag => 'test_tag', snapshot => 1)"),
+                Row(true) :: Nil)
 
-            // snapshot-2
-            inputData.addData((2, "b"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
+              // snapshot-2
+              inputData.addData((2, "b"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
 
-            // snapshot-3
-            inputData.addData((2, "b2"))
-            stream.processAllAvailable()
-            checkAnswer(query(), Row(1, "a") :: Row(2, "b2") :: Nil)
-            assertThrows[RuntimeException] {
-              spark.sql("CALL paimon.sys.rollback(table => 'test.T_exception', version =>  '2')")
-            }
-            // rollback to snapshot
-            checkAnswer(
-              spark.sql("CALL paimon.sys.rollback(table => 'test.T', version => '2')"),
-              Row(table.latestSnapshot().get().id, 2) :: Nil)
-            checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
+              // snapshot-3
+              inputData.addData((2, "b2"))
+              stream.processAllAvailable()
+              checkAnswer(query(), Row(1, "a") :: Row(2, "b2") :: Nil)
+              assertThrows[RuntimeException] {
+                spark.sql("CALL paimon.sys.rollback(table => 'test.T_exception', version =>  '2')")
+              }
+              // rollback to snapshot
+              checkAnswer(
+                spark.sql("CALL paimon.sys.rollback(table => 'test.T', version => '2')"),
+                Row(table.latestSnapshot().get().id, 2) :: Nil)
+              checkAnswer(query(), Row(1, "a") :: Row(2, "b") :: Nil)
 
-            // rollback to tag
-            checkAnswer(
-              spark.sql("CALL paimon.sys.rollback(table => 'test.T', version => 'test_tag')"),
-              Row(table.latestSnapshot().get().id, 1) :: Nil)
-            checkAnswer(query(), Row(1, "a") :: Nil)
-          } finally {
-            stream.stop()
-          }
+              // rollback to tag
+              checkAnswer(
+                spark.sql("CALL paimon.sys.rollback(table => 'test.T', version => 'test_tag')"),
+                Row(table.latestSnapshot().get().id, 1) :: Nil)
+              checkAnswer(query(), Row(1, "a") :: Nil)
+            } finally {
+              stream.stop()
+            }
+        }
       }
     }
   }
diff --git a/paimon-spark/paimon-spark-common/src/main/java/org/apache/paimon/spark/SparkConnectorOptions.java b/paimon-spark/paimon-spark-common/src/main/java/org/apache/paimon/spark/SparkConnectorOptions.java
@@ -49,7 +49,7 @@ public class SparkConnectorOptions {
     public static final ConfigOption<Boolean> USE_V2_WRITE =
             key("write.use-v2-write")
                     .booleanType()
-                    .defaultValue(false)
+                    .defaultValue(true)
                     .withDescription(
                             "If true, v2 write will be used. Currently, only HASH_FIXED and BUCKET_UNAWARE bucket modes are supported. Will fall back to v1 write for other bucket modes. Currently, Spark V2 write does not support TableCapability.STREAMING_WRITE and TableCapability.ACCEPT_ANY_SCHEMA.");
 
diff --git a/paimon-spark/paimon-spark-ut/src/test/scala/org/apache/paimon/spark/procedure/CompactProcedureTestBase.scala b/paimon-spark/paimon-spark-ut/src/test/scala/org/apache/paimon/spark/procedure/CompactProcedureTestBase.scala
diff --git a/paimon-spark/paimon-spark-ut/src/test/scala/org/apache/paimon/spark/sql/DataFrameWriteTestBase.scala b/paimon-spark/paimon-spark-ut/src/test/scala/org/apache/paimon/spark/sql/DataFrameWriteTestBase.scala

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,9 @@ import java.sql.Date`
`29`	`29`	`class PaimonSinkTest extends PaimonSparkTestBase with StreamTest {`
`30`	`30`
`31`	`31`	`override protected def sparkConf: SparkConf = {`
`32`		`- super.sparkConf.set("spark.sql.catalog.paimon.cache-enabled", "false")`
	`32`	`+ super.sparkConf`
	`33`	`+ .set("spark.sql.catalog.paimon.cache-enabled", "false")`
	`34`	`+ .set("spark.paimon.write.use-v2-write", "false")`
`33`	`35`	`}`
`34`	`36`
`35`	`37`	`import testImplicits._`