11得票2回答
Spark流处理中的SQL查询

这是在Spark Streaming上运行简单SQL查询的代码。import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ ...

10得票1回答
Spark Streaming中的Append模式和Update模式有什么真正的区别?

什么是Spark Streaming中Append模式和Update模式的区别? 根据文档: 追加模式(默认) - 这是默认模式,只有自上次触发以来添加到结果表的新行将被输出到接收器。此仅支持那些结果表中的行不会改变的查询。因此,该模式保证每行仅输出一次(假设容错接收器)。例如,仅使用 s...

12得票3回答
"Immortal" Spark Streaming Job?

好的,所以我曾经问过一个与Spark如何在内部处理异常相关的问题,但当时给出的例子不够清晰完整。那里的一个答案指引了我一些方向,但我无法解释某些事情。 我设置了一个虚拟的Spark流应用程序,在转换阶段中我有一个俄罗斯轮盘表达式,可能会抛出异常,如果抛出异常,则停止Spark流上下文。就这样...

8得票3回答
Spark流式处理时间 vs 总延迟 vs 处理延迟

我正在尝试理解Spark Streaming输出的不同指标,我有些困惑最后一个批次的处理时间(Processing Time)、总延迟(Total Delay)和处理延迟(Processing Delay)之间的区别。我已经查看了Spark Streaming指南,其中提到处理时间是确定系统是...

46得票3回答
使用Python的Spark:如何解决阶段x包含一个非常大(xxx KB)的任务。最大推荐任务大小为100 KB。

我刚刚创建了一个Python列表,其中包含range(1,100000)。 使用SparkContext执行了以下步骤:a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range...

8得票2回答
Spark-Redshift写入Redshift需要很长时间。

我正在设置使用Kinesis和Redshift的Spark流。我每隔10秒从Kinesis读取数据,处理完后使用spark-redshift库将其写入Redshift。 问题是仅写入300行就需要消耗大量时间。 这是控制台显示的内容: [Stage 56:================...

7得票2回答
Spark结构化流处理在不同的数据源之间保持一致性

我想更好地了解Spark 2.2结构化流的一致性模型,具体情况如下: 一个数据源(Kinesis) 从该数据源向2个不同的下游查询:一个文件下游用于存档目的(S3),另一个下游用于处理过的数据(DB或文件,尚未决定) 我想知道是否在某些情况下跨下游存在任何一致性保证: 其中一个下游...

21得票2回答
如何更新RDD?

我们正在开发Spark框架,将历史数据转移到RDD集合中。 基本上,RDD是不可变的、只读的数据集,在其上进行操作。基于此,我们已经将历史数据移入RDD,并对这些RDD进行过滤/映射等计算操作。 现在有一个用例,其中RDD中的一部分数据得到更新,我们必须重新计算值。 Historical...

12得票1回答
如何优雅地停止运行Spark Streaming应用程序?

如何停止Spark Streaming? 我的Spark Streaming作业一直在运行。我想以优雅的方式停止它。 我看到了以下关闭流应用程序的选项。 sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true") ...

14得票4回答
使用模式将AVRO消息与Spark转换为DataFrame

有没有一种方法可以使用模式将来自kafka的avro消息与spark转换为dataframe?用户记录的模式文件: { "fields": [ { "name": "firstName", "type": "string" }, { "name": "lastName",...