我一直在寻找是否有方法可以在
假设我创建了一个简单的
Pyspark
中使用Scala
类,并且我没有找到关于这个主题的文档或指南。假设我创建了一个简单的
Scala
类,其中使用了apache-spark
的一些库,例如:class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- 有没有可能在
Pyspark
中使用这个类? - 难度是否太大?
- 我必须创建一个
.py
文件吗? - 有没有指南展示如何做到这一点?
顺便说一句,我也看了一下 spark
的代码,感觉有些迷失,并且我无法为自己的目的复制它们的功能。