如何从InputStream创建Spark DataFrame?

4

我希望避免将整个流写入文件,然后再加载到数据框中。有什么正确的方法吗?


Spark Streaming? - undefined_variable
https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkContext@textFile(path:String,minPartitions:Int):org.apache.spark.rdd.RDD[String] - Reactormonk
@Reactormonk,这个API获取的是HDFS中的路径,而不是流。 - Hagai
你的 InputStream 是什么? - Reactormonk
使用REST API从远程服务器读取的流。 - Hagai
1个回答

1
你可以查看Spark StreamingsqlnetworkWordCount,这些内容解释了通过使用SparkStreamingSparkContext创建SparkSessionsingleton instance可以解决你的问题。
通过阅读上述链接,你应该能够更好地理解如何从streaming rdd创建dataframes

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接