有很多问题在比较Flink和Spark Streaming,Flink和Storm以及Storm和Heron。 这个问题的起源是因为Apache Flink和Twitter Heron都是真正的流处理框架(不像Spark Streaming那样是微批处理)。Twitter去年停用了Storm...
我需要从某个来源读取数据流(在我的情况下是UDP流,但这并不重要),转换每个记录并将其写入HDFS。 对于这个目的,使用Flume或Flink有什么区别吗? 我知道可以使用自定义拦截器在Flume中转换每个事件。 但是我在Flink上还是新手,所以对我来说它看起来会做同样的事情。 应该...
在CoFlatMapFunction方面遇到了一些困难。如果我将它放在窗口之前的DataStream上,它似乎可以正常工作,但如果将其放在窗口的“apply”函数之后,就会出现错误。 我正在测试两个流,主要的“Features”在flatMap1上不断地输入数据,控制流“Model”在fla...
在 Flink Streaming 中,有没有一种方法可以统计数据流中唯一单词的数量?结果应该是一个数字流,不断增加。
我从Kafka获得了一个DataStream,其中MyModel的一个字段有两种可能的值。MyModel是一个POJO对象,它包含从Kafka消息中解析出来的领域特定的字段。 DataStream<MyModel> stream = env.addSource(myKafkaCo...
我遇到一些困惑,不太理解事件时间窗口的语义。以下程序生成了一些具有时间戳的元组,这些时间戳被用作事件时间,并进行简单的窗口聚合。我期望输出与输入顺序相同,但实际上输出的顺序不同。为什么输出与事件时间的顺序不一致? import java.util.concurrent.TimeUnit im...
我有一串带有键的数据,需要计算不同时间段(1分钟、5分钟、1天、1周)内的滚动计数。 是否可以在单个应用程序中计算所有四个窗口计数?
当我在Apache Flink中运行一个SocketWindowWordCount程序时,它显示了一个警告: 警告:org.apache.flink.api.java.ClosureCleaner存在非法反射访问 警告:发生了一次非法的反射访问操作 警告:org.apache.fli...
如果有人给出用例示例来解释以下每个带有Apache flink的Watermark API之间的区别将会很有帮助: 定期水印 - AssignerWithPeriodicWatermarks[T] 断点水印 - AssignerWithPunctuatedWatermarks[T]