Implement FlintJob to handle all query types in warmpool mode #979

saranrajnk · 2024-12-09T18:16:10Z

Description

This PR introduces support for FlintJob to handle all types of queries — interactive, streaming, and batch — with all data sources in warmpool mode. Additionally, FlintJob will also support non-warmpool mode for streaming and batch queries, configurable via a Spark configuration setting.

FlintJob invokes Warmpool.scala, which in turn calls the client to continuously fetch queries for execution. The client sets various Spark configurations, such as the datasource, resultIndex, and other parameters. It also controls when to terminate the loop and stop the job. When a valid query is received, the JobOperator flow is triggered to execute the query and write the results accordingly.

Changes:

Introduces a new file, Warmpool.scala, which repeatedly calls getNextStatement() in a loop.
Adds support in JobOperator to write the query results either to QueryResultWriter or an OpenSearch Index, depending on the job type.
Implements the emission of success, failure, and latency metrics within JobOperator.

Related Issues

Check List

Updated documentation (docs/ppl-lang/README.md)
Implemented unit tests
Implemented tests for combination with other commands
New added source code should include a copyright header
Commits are signed per the DCO using --signoff

By submitting this pull request, I confirm that my contribution is made under the terms of the Apache 2.0 license.
For more information on following Developer Certificate of Origin and signing off your commits, please check here.

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala

ykmr1224

Can you clarify and document how WarmPool is abstracted and can be enabled/disabled?

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala

noCharger · 2024-12-17T00:13:38Z

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJobExecutor.scala

+  def getSegmentName(sparkSession: SparkSession): String = {
+    val maxExecutorsCount =
+      sparkSession.conf.get(FlintSparkConf.MAX_EXECUTORS_COUNT.key, "unknown")
+    String.format("%se", maxExecutorsCount)
+  }


This segmentName is specific to warmpool logic; let us create abstractions on warmpool and record metrics via AOP.

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintREPL.scala

spark-sql-application/src/main/scala/org/apache/spark/sql/JobOperator.scala

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala

spark-sql-application/src/main/scala/org/apache/spark/sql/WarmpoolJob.scala

noCharger

Can we remove the concept of interactive / batch / streaming job for warm pool?

spark-sql-application/src/main/scala/org/apache/spark/sql/WarmpoolJob.scala

noCharger · 2025-01-10T17:58:03Z

spark-sql-application/src/main/scala/org/apache/spark/sql/WarmpoolJob.scala

+    }
+  }
+
+  def queryLoop(commandContext: CommandContext): Unit = {


why do we need the concept of query loop for warm pool?

Warmpool requires multiple iterations as well before running the actual query.

Signed-off-by: Shri Saran Raj N <[email protected]>

saranrajnk · 2025-01-26T17:09:08Z

spark-sql-application/src/main/scala/org/apache/spark/sql/JobOperator.scala


    // osClient needs spark session to be created first to get FlintOptions initialized.
    // Otherwise, we will have connection exception from EMR-S to OS.
    val osClient = new OSClient(FlintSparkConf().flintOptions())

+    // QueryResultWriter depends on sessionManager to fetch the sessionContext
+    val sessionManager = instantiateSessionManager(sparkSession, Some(resultIndex))


Since JobOperator needs to support interactive queries, QueryResultWriter will be used. QueryResultWriterImpl, which handles the writing of query results, depends on sessionManager.

That's why sessionManager is being introduced here to satisfy this dependency (for interactive queries)

Reference: https://github.com/opensearch-project/opensearch-spark/blob/main/spark-sql-application/src/main/scala/org/apache/spark/sql/QueryResultWriterImpl.scala#L20

Signed-off-by: Shri Saran Raj N <[email protected]>

saranrajnk requested review from dai-chen, mengweieric, penghuo, seankao-az, anirudha, kaituo, YANG-DB, noCharger, LantaoJin and ykmr1224 as code owners December 9, 2024 18:16

saranrajnk force-pushed the nexus-wp-feat branch from 6747ab9 to 59aa26b Compare December 10, 2024 15:14

andy-k-improving reviewed Dec 12, 2024

View reviewed changes

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala Show resolved Hide resolved

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala Show resolved Hide resolved

ykmr1224 requested changes Dec 16, 2024

View reviewed changes

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala Outdated Show resolved Hide resolved

spark-sql-application/src/main/scala/org/apache/spark/sql/FlintJob.scala Outdated Show resolved Hide resolved

noCharger reviewed Dec 17, 2024

View reviewed changes

saranrajnk force-pushed the nexus-wp-feat branch 3 times, most recently from 044aeea to adef5b6 Compare December 20, 2024 20:43

noCharger added the 0.7 label Jan 2, 2025

ykmr1224 reviewed Jan 7, 2025

View reviewed changes

spark-sql-application/src/main/scala/org/apache/spark/sql/WarmpoolJob.scala Show resolved Hide resolved

spark-sql-application/src/main/scala/org/apache/spark/sql/WarmpoolJob.scala Outdated Show resolved Hide resolved

noCharger requested changes Jan 10, 2025

View reviewed changes

saranrajnk force-pushed the nexus-wp-feat branch from e195862 to b19028b Compare January 26, 2025 16:41

Add FlintJob to support queries in warmpool mode

e1db8de

Signed-off-by: Shri Saran Raj N <[email protected]>

saranrajnk force-pushed the nexus-wp-feat branch from b19028b to e1db8de Compare January 26, 2025 16:47

saranrajnk commented Jan 26, 2025

View reviewed changes

Revert error message change

83e24a4

Signed-off-by: Shri Saran Raj N <[email protected]>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Implement FlintJob to handle all query types in warmpool mode #979

Implement FlintJob to handle all query types in warmpool mode #979

saranrajnk commented Dec 9, 2024 •

edited

Loading

ykmr1224 left a comment

noCharger Dec 17, 2024

noCharger left a comment

noCharger Jan 10, 2025

saranrajnk Jan 13, 2025

saranrajnk Jan 26, 2025

Implement FlintJob to handle all query types in warmpool mode #979

Are you sure you want to change the base?

Implement FlintJob to handle all query types in warmpool mode #979

Conversation

saranrajnk commented Dec 9, 2024 • edited Loading

Description

Related Issues

Check List

ykmr1224 left a comment

Choose a reason for hiding this comment

noCharger Dec 17, 2024

Choose a reason for hiding this comment

noCharger left a comment

Choose a reason for hiding this comment

noCharger Jan 10, 2025

Choose a reason for hiding this comment

saranrajnk Jan 13, 2025

Choose a reason for hiding this comment

saranrajnk Jan 26, 2025

Choose a reason for hiding this comment

saranrajnk commented Dec 9, 2024 •

edited

Loading