最新 'spark-streaming' 问题 - 第3页

关联标签

8得票1回答

我想编写一个简单的pyspark作业，从kafka代理主题接收数据，对该数据进行一些转换，并将转换后的数据放入不同的kafka代理主题。我有以下代码，它从kafka主题读取数据，但在运行sendkafka函数时没有效果： from pyspark import SparkConf, Sp...

14得票5回答

我正在尝试设置Spark Streaming来获取Kafka队列中的消息。我遇到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.s...

27得票3回答

我正在尝试执行一个以 Twitter 为源的 Spark Streaming 示例，如下所示：public static void main (String.. args) { SparkConf conf = new SparkConf().setAppName("Spark_St...

46得票3回答

我刚刚创建了一个Python列表，其中包含range(1,100000)。使用SparkContext执行了以下步骤：a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range...

16得票7回答

我正在尝试使用 Eclipse（具有 Maven 配置），使用 2 个工作器，每个工作器都有 2 个核心，或者也尝试使用 spark-submit 执行以下代码。public class StreamingWorkCount implements Serializable { pub...

7得票1回答

我正在构建实时处理来检测欺诈ATM卡交易。为了有效地检测欺诈，逻辑需要按卡片分组的最后交易日期和每天（或过去24小时）交易金额总和。其中一个用例是，如果卡片在本国以外的交易距离上次在该国交易超过30天，则发送警报以可能是欺诈。因此，我尝试使用Spark流作为解决方案。为了实现这一点（可...

9得票7回答

我有一个Spark流应用程序，基本上从Kafka接收触发消息，启动可能需要长达2小时的批处理。曾经出现过一些作业无限期挂起并且没有在通常时间内完成的情况，目前我们无法找到作业状态的方法，除非手动检查Spark UI。我希望有一种方式可以确定当前正在运行的Spark作业是否挂起。因此，如果它...

12得票1回答

我正在编写一个库，将Apache Spark与自定义环境集成。我正在实现自定义的流数据源和流写入器。我正在开发的一些数据源在应用程序崩溃后不可恢复。如果应用程序重新启动，它需要重新加载所有数据。因此，我们希望避免用户显式设置“checkpointLocation”选项。但是如果未提供该选...

10得票2回答

在开发期间，我一直在以"client"模式运行我的Spark作业。我使用"--file"与执行器共享配置文件。驱动程序是在本地读取配置文件的。现在我想在"cluster"模式下部署作业，但我现在难以与驱动程序共享配置文件。例如，我将配置文件名作为extraJavaOptions传递给驱动程...

11得票3回答

我试图从kafka传递数据到spark streaming。到目前为止，我已经完成以下步骤：安装了kafka和spark使用默认属性配置启动zookeeper使用默认属性配置启动kafka服务器启动kafka生产者启动kafka消费者从生产者发送消息到消费者。运行良好。编写了kafka-sp...