我只知道版本的区别,但不知道功能或其他方面的区别。例如,Sparksession 内部包含了 Sparkcontext 和配置信息。
我只知道版本的区别,但不知道功能或其他方面的区别。例如,Sparksession 内部包含了 Sparkcontext 和配置信息。
这里是一个例子:
colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query
计数将并行执行,结果将进入RDD的5个分区