为了账号安全,请及时绑定邮箱和手机立即绑定

通过JDBC从RDBMS读取时分区为spark

/ 猿问

通过JDBC从RDBMS读取时分区为spark

守着一只汪 2019-09-06 15:54:18

我在集群模式下运行spark并通过JDBC从RDBMS读取数据。


根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:


partitionColumn

lowerBound

upperBound

numPartitions

这些是可选参数。


如果我不指定这些,会发生什么:


只有1名工人读取整个数据?

如果它仍然并行读取,它如何分区数据?


查看完整描述

1 回答

?
largeQ

如果没有指定{ partitionColumnlowerBoundupperBoundnumPartitions}或{ predicates}星火将使用一个执行者,并创建一个非空分区。所有数据都将使用单个事务处理,并且读取既不会分发也不会并行化。

查看完整回答
反对 2019-09-06
  • 1 回答
  • 0 关注
  • 109 浏览
慕课专栏
更多

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信