apache · beliefer · Mar 12, 2026 · wForget · Mar 13, 2026 · wForget
diff --git a/gluten-substrait/src/main/scala/org/apache/spark/sql/hive/HiveTableScanExecTransformer.scala b/gluten-substrait/src/main/scala/org/apache/spark/sql/hive/HiveTableScanExecTransformer.scala
@@ -77,7 +77,16 @@ case class HiveTableScanExecTransformer(
     partitionWithReadFileFormats
 
   override def getDistinctPartitionReadFileFormats: Set[ReadFileFormat] =
-    distinctReadFileFormats
+    if (
+      relation.isPartitioned &&
+      basePrunedPartitions.exists(_.getInputFormatClass != tableDesc.getInputFileFormatClass)
+    ) {
+      basePrunedPartitions.map {
+        partition => getReadFileFormat(HiveClientImpl.fromHivePartition(partition).storage)
+      }.toSet
+    } else {
+      Set(fileFormat)
+    }
 
   override def getPartitionSchema: StructType = relation.tableMeta.partitionSchema
 
@@ -120,9 +129,6 @@ case class HiveTableScanExecTransformer(
 
   @transient private lazy val partitions: Seq[Partition] = partitionWithReadFileFormats.unzip._1
 
-  @transient private lazy val distinctReadFileFormats: Set[ReadFileFormat] =
-    partitionWithReadFileFormats.iterator.map(_._2).toSet
-
   @transient override lazy val fileFormat: ReadFileFormat =
     getReadFileFormat(relation.tableMeta.storage)
 

diff --git a/...park33/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala b/...park33/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala
@@ -173,26 +173,30 @@ abstract private[hive] class AbstractHiveTableScanExec(
     }
   }
 
-  @transient lazy val prunedPartitions: Seq[HivePartition] = {
+  // This is used on the driver side, so it is important to avoid executing subqueries
+  @transient lazy val basePrunedPartitions: Seq[HivePartition] = {
+    if (relation.prunedPartitions.nonEmpty) {
+      relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
+    } else {
+      rawPartitions
+    }
+  }
+
+  @transient lazy val prunedPartitions: Seq[HivePartition] =
     if (relation.prunedPartitions.nonEmpty) {
-      val hivePartitions =
-        relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
       if (partitionPruningPred.forall(!ExecSubqueryExpression.hasSubquery(_))) {
-        hivePartitions
+        basePrunedPartitions
       } else {
-        prunePartitions(hivePartitions)
+        prunePartitions(basePrunedPartitions)
       }
+    } else if (
+      sparkSession.sessionState.conf.metastorePartitionPruning &&
+      partitionPruningPred.nonEmpty
+    ) {
+      basePrunedPartitions
     } else {
-      if (
-        sparkSession.sessionState.conf.metastorePartitionPruning &&
-        partitionPruningPred.nonEmpty
-      ) {
-        rawPartitions
-      } else {
-        prunePartitions(rawPartitions)
-      }
+      prunePartitions(basePrunedPartitions)
     }
-  }
 
   // exposed for tests
   @transient lazy val rawPartitions: Seq[HivePartition] = {

diff --git a/...park34/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala b/...park34/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala
@@ -175,26 +175,30 @@ abstract private[hive] class AbstractHiveTableScanExec(
     }
   }
 
-  @transient lazy val prunedPartitions: Seq[HivePartition] = {
+  // This is used on the driver side, so it is important to avoid executing subqueries
+  @transient lazy val basePrunedPartitions: Seq[HivePartition] = {
+    if (relation.prunedPartitions.nonEmpty) {
+      relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
+    } else {
+      rawPartitions
+    }
+  }
+
+  @transient lazy val prunedPartitions: Seq[HivePartition] =
     if (relation.prunedPartitions.nonEmpty) {
-      val hivePartitions =
-        relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
       if (partitionPruningPred.forall(!ExecSubqueryExpression.hasSubquery(_))) {
-        hivePartitions
+        basePrunedPartitions
       } else {
-        prunePartitions(hivePartitions)
+        prunePartitions(basePrunedPartitions)
       }
+    } else if (
+      sparkSession.sessionState.conf.metastorePartitionPruning &&
+      partitionPruningPred.nonEmpty
+    ) {
+      basePrunedPartitions
     } else {
-      if (
-        sparkSession.sessionState.conf.metastorePartitionPruning &&
-        partitionPruningPred.nonEmpty
-      ) {
-        rawPartitions
-      } else {
-        prunePartitions(rawPartitions)
-      }
+      prunePartitions(basePrunedPartitions)
     }
-  }
 
   // exposed for tests
   @transient lazy val rawPartitions: Seq[HivePartition] = {

diff --git a/...park35/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala b/...park35/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala
@@ -175,26 +175,30 @@ abstract private[hive] class AbstractHiveTableScanExec(
     }
   }
 
-  @transient lazy val prunedPartitions: Seq[HivePartition] = {
+  // This is used on the driver side, so it is important to avoid executing subqueries
+  @transient lazy val basePrunedPartitions: Seq[HivePartition] = {
+    if (relation.prunedPartitions.nonEmpty) {
+      relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
+    } else {
+      rawPartitions
+    }
+  }
+
+  @transient lazy val prunedPartitions: Seq[HivePartition] =
     if (relation.prunedPartitions.nonEmpty) {
-      val hivePartitions =
-        relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
       if (partitionPruningPred.forall(!ExecSubqueryExpression.hasSubquery(_))) {
-        hivePartitions
+        basePrunedPartitions
       } else {
-        prunePartitions(hivePartitions)
+        prunePartitions(basePrunedPartitions)
       }
+    } else if (
+      sparkSession.sessionState.conf.metastorePartitionPruning &&
+      partitionPruningPred.nonEmpty
+    ) {
+      basePrunedPartitions
     } else {
-      if (
-        sparkSession.sessionState.conf.metastorePartitionPruning &&
-        partitionPruningPred.nonEmpty
-      ) {
-        rawPartitions
-      } else {
-        prunePartitions(rawPartitions)
-      }
+      prunePartitions(basePrunedPartitions)
     }
-  }
 
   // exposed for tests
   @transient lazy val rawPartitions: Seq[HivePartition] = {

diff --git a/...park40/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala b/...park40/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala
@@ -175,26 +175,30 @@ abstract private[hive] class AbstractHiveTableScanExec(
     }
   }
 
-  @transient lazy val prunedPartitions: Seq[HivePartition] = {
+  // This is used on the driver side, so it is important to avoid executing subqueries
+  @transient lazy val basePrunedPartitions: Seq[HivePartition] = {
+    if (relation.prunedPartitions.nonEmpty) {
+      relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
+    } else {
+      rawPartitions
+    }
+  }
+
+  @transient lazy val prunedPartitions: Seq[HivePartition] =
     if (relation.prunedPartitions.nonEmpty) {
-      val hivePartitions =
-        relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
       if (partitionPruningPred.forall(!ExecSubqueryExpression.hasSubquery(_))) {
-        hivePartitions
+        basePrunedPartitions
       } else {
-        prunePartitions(hivePartitions)
+        prunePartitions(basePrunedPartitions)
       }
+    } else if (
+      sparkSession.sessionState.conf.metastorePartitionPruning &&
+      partitionPruningPred.nonEmpty
+    ) {
+      basePrunedPartitions
     } else {
-      if (
-        sparkSession.sessionState.conf.metastorePartitionPruning &&
-        partitionPruningPred.nonEmpty
-      ) {
-        rawPartitions
-      } else {
-        prunePartitions(rawPartitions)
-      }
+      prunePartitions(basePrunedPartitions)
     }
-  }
 
   // exposed for tests
   @transient lazy val rawPartitions: Seq[HivePartition] = {

diff --git a/...park41/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala b/...park41/src/main/scala/org/apache/spark/sql/hive/execution/AbstractHiveTableScanExec.scala
@@ -175,26 +175,30 @@ abstract private[hive] class AbstractHiveTableScanExec(
     }
   }
 
-  @transient lazy val prunedPartitions: Seq[HivePartition] = {
+  // This is used on the driver side, so it is important to avoid executing subqueries
+  @transient lazy val basePrunedPartitions: Seq[HivePartition] = {
+    if (relation.prunedPartitions.nonEmpty) {
+      relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
+    } else {
+      rawPartitions
+    }
+  }
+
+  @transient lazy val prunedPartitions: Seq[HivePartition] =
     if (relation.prunedPartitions.nonEmpty) {
-      val hivePartitions =
-        relation.prunedPartitions.get.map(HiveClientImpl.toHivePartition(_, hiveQlTable))
       if (partitionPruningPred.forall(!ExecSubqueryExpression.hasSubquery(_))) {
-        hivePartitions
+        basePrunedPartitions
       } else {
-        prunePartitions(hivePartitions)
+        prunePartitions(basePrunedPartitions)
       }
+    } else if (
+      sparkSession.sessionState.conf.metastorePartitionPruning &&
+      partitionPruningPred.nonEmpty
+    ) {
+      basePrunedPartitions
     } else {
-      if (
-        sparkSession.sessionState.conf.metastorePartitionPruning &&
-        partitionPruningPred.nonEmpty
-      ) {
-        rawPartitions
-      } else {
-        prunePartitions(rawPartitions)
-      }
+      prunePartitions(basePrunedPartitions)
     }
-  }
 
   // exposed for tests
   @transient lazy val rawPartitions: Seq[HivePartition] = {