最新 'spark-streaming' 问题 - 第4页

关联标签

11得票2回答

Spark流处理中的SQL查询

这是在Spark Streaming上运行简单SQL查询的代码。import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ ...

apache-sparkspark-streaming

10得票1回答

Spark Streaming中的Append模式和Update模式有什么真正的区别？

什么是Spark Streaming中Append模式和Update模式的区别？根据文档：追加模式（默认） - 这是默认模式，只有自上次触发以来添加到结果表的新行将被输出到接收器。此仅支持那些结果表中的行不会改变的查询。因此，该模式保证每行仅输出一次（假设容错接收器）。例如，仅使用 s...

apache-sparkspark-streaming

12得票3回答

"Immortal" Spark Streaming Job?

好的，所以我曾经问过一个与Spark如何在内部处理异常相关的问题，但当时给出的例子不够清晰完整。那里的一个答案指引了我一些方向，但我无法解释某些事情。我设置了一个虚拟的Spark流应用程序，在转换阶段中我有一个俄罗斯轮盘表达式，可能会抛出异常，如果抛出异常，则停止Spark流上下文。就这样...

scalaapache-sparkspark-streaming

8得票3回答

Spark流式处理时间 vs 总延迟 vs 处理延迟

我正在尝试理解Spark Streaming输出的不同指标，我有些困惑最后一个批次的处理时间（Processing Time）、总延迟（Total Delay）和处理延迟（Processing Delay）之间的区别。我已经查看了Spark Streaming指南，其中提到处理时间是确定系统是...

apache-sparkstreaminganalyticsspark-streamingmetrics

46得票3回答

使用Python的Spark：如何解决阶段x包含一个非常大（xxx KB）的任务。最大推荐任务大小为100 KB。

我刚刚创建了一个Python列表，其中包含range(1,100000)。使用SparkContext执行了以下步骤：a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range...

apache-sparkspark-streaming

8得票2回答

Spark-Redshift写入Redshift需要很长时间。

我正在设置使用Kinesis和Redshift的Spark流。我每隔10秒从Kinesis读取数据，处理完后使用spark-redshift库将其写入Redshift。问题是仅写入300行就需要消耗大量时间。这是控制台显示的内容： [Stage 56:================...

apache-sparkspark-streamingamazon-redshift

7得票2回答

Spark结构化流处理在不同的数据源之间保持一致性

我想更好地了解Spark 2.2结构化流的一致性模型，具体情况如下：一个数据源（Kinesis）从该数据源向2个不同的下游查询：一个文件下游用于存档目的（S3），另一个下游用于处理过的数据（DB或文件，尚未决定）我想知道是否在某些情况下跨下游存在任何一致性保证：其中一个下游...

apache-sparkspark-streaming

21得票2回答

如何更新RDD？

我们正在开发Spark框架，将历史数据转移到RDD集合中。基本上，RDD是不可变的、只读的数据集，在其上进行操作。基于此，我们已经将历史数据移入RDD，并对这些RDD进行过滤/映射等计算操作。现在有一个用例，其中RDD中的一部分数据得到更新，我们必须重新计算值。 Historical...

apache-sparkrddspark-streaming

12得票1回答

如何优雅地停止运行Spark Streaming应用程序？

如何停止Spark Streaming？我的Spark Streaming作业一直在运行。我想以优雅的方式停止它。我看到了以下关闭流应用程序的选项。 sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true") ...

apache-sparkspark-streaming

14得票4回答

使用模式将AVRO消息与Spark转换为DataFrame

有没有一种方法可以使用模式将来自kafka的avro消息与spark转换为dataframe？用户记录的模式文件： { "fields": [ { "name": "firstName", "type": "string" }, { "name": "lastName",...

scalaapache-sparkapache-kafkaspark-streamingavro