163得票4回答
Flink和Storm的主要区别是什么?

Flink被与Spark相比较,但我认为这是错误的比较,因为它将一个窗口事件处理系统与微批处理进行比较;同样,将Flink与Samza进行比较对我来说也没有太多意义。在这两种情况下,它比较了实时和批处理事件处理策略,即使在Samza的情况下规模更小。但我想知道Flink与Storm相比如何,因...

117得票3回答
Apache Beam相比于Spark/Flink在批处理方面的优势有哪些?

Apache Beam 支持多个执行引擎后端,包括 Apache Spark 和 Flink。我熟悉 Spark/Flink,并试图了解 Beam 在批处理方面的优势和劣势。 通过查看Beam单词计数示例,感觉它与原生的Spark/Flink等价物非常相似,可能语法稍微冗长一些。 目前我并...

35得票4回答
“仅一次”和“至少一次”保证的区别

我正在学习分布式系统,并参考这个旧问题:stackoverflow 链接 我真的不理解什么是 exactly-once、at-least-once 和 at-most-once 保证,我在 Kafka、Flink、Storm 和 Cassandra 中读到了这些概念。例如,有人说 Flink...

30得票4回答
无法找到类型为 org.apache.flink.api.common.typeinfo.TypeInformation[...] 的证据参数的隐式值

我正在尝试编写一些关于Apache Flink的用例。我经常遇到一个错误: could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInform...

27得票2回答
Apache Flink 和 Apache Spark 作为大规模机器学习平台的比较?

有人能够比较Flink和Spark作为机器学习平台的优劣吗?哪一个对于迭代算法来说更有潜力?以下是关于Flink vs Spark的综合讨论链接:What is the difference between Apache Spark and Apache Flink?

26得票3回答
实践中,小批量处理和实时流处理有什么区别?

在实践中,小批量和实时流有哪些区别(不是理论上的差异)?理论上,我理解小批量是在给定时间内批处理数据,而实时流更像是随着数据到达进行操作,但我最大的问题是为什么不能在 epsilon 时间范围内使用小批量(比如说一毫秒)或者说我想了解一个方法为什么比另一个方法更有效? 我最近遇到一个例子,其...

22得票3回答
Apache Flink - 检查点和保存点的区别?

请问有人能帮我理解Apache Flink的Checkpoints和Savepoints之间的区别吗? 我阅读了文档,但仍无法理解它们之间的差异!:s

21得票2回答
操作员遇到的一些难题:Flink中的并行性问题

我刚刚拿到了下面这个例子用于并行处理,并有一些相关的问题: setParallelism(5) 只为 sum 设置 Parallelism 5,还是对 flatMap 和 sum 都设置了 Parallelism 5? 我们是否可以将不同的并行度分别设置给不同的操作符,例如分别设置 sum...

20得票1回答
如何正确实现HTTP sink?

我希望将我的DataStream流的计算结果通过HTTP协议发送到其他服务。我看到有两种可能的实现方式: 在sink中使用同步的Apache HttpClient客户端 public class SyncHttpSink extends RichSinkFunction<Sessio...

20得票3回答
Flink WebUI在从IDE运行时的问题

我想在Web用户界面中查看我的工作。 我使用createLocalEnvironmentWithWebUI,在IDE中代码运行良好,但无法在http://localhost:8081/#/overview中看到我的工作。 val conf: Configuration = new ...