SparkSession和SparkContext有什么区别?

17

我只知道版本的区别,但不知道功能或其他方面的区别。例如,Sparksession 内部包含了 Sparkcontext 和配置信息。

2个回答

31
在早期版本的Spark中,有不同的上下文(例如sparkcontext用于核心API,sql context用于Spark SQL API,streaming context用于Dstream API等),这给开发人员带来了困惑,并成为Spark团队优化的重点。因此,在最新版本的Spark中只有一个入口点(即Spark会话),从这个入口点可以获取其他各种入口点(如Spark Context、Streaming Context等)。

所以基本上,如果我需要使用Spark SQL进行数据整理,我就不需要使用SparkContext,只需要使用SparkSession就可以了,对吧?请原谅我的无知,我只是一名数据分析师,在分布式计算方面完全是新手。 - Vivek Puurkayastha

-5

这里是一个例子:

colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query

计数将并行执行,结果将进入RDD的5个分区


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接