13得票1回答
如何在Dataflow/Beam中将流数据与大型历史数据集相结合

我正在使用Google Dataflow/Apache Beam处理Web用户会话日志,并需要将用户的日志(实时数据流)与上个月的用户会话历史记录结合起来。 我已经研究了以下方法: 使用30天固定窗口:窗口太大,不能全部装入内存,并且我不需要更新用户的历史记录,只需引用它。 使用CoGr...

12得票3回答
Apache Beam计数器/指标在Flink WebUI中不可用。

我正在使用Flink 1.4.1和Beam 2.3.0,想知道是否可以像Dataflow WebUI那样,在Flink WebUI(或其他任何地方)中使用度量指标? 我已经使用了计数器:import org.apache.beam.sdk.metrics.Counter; import or...

12得票3回答
当从IDE运行Flink时,我该如何启动Flink作业管理器Web界面?

我希望在从IDE本地启动Flink时能够访问Flink Web界面。 我需要这样做是因为我想要访问Flink的计数器(累加器)。

12得票1回答
Flink:流式拓扑中未定义运算符。无法执行。

我正在尝试搭建一个非常基础的flink作业。当我尝试运行时,出现以下错误:Caused by: java.lang.IllegalStateException: No operators defined in streaming topology. Cannot execute. at...

11得票1回答
Flink:如何处理外部应用程序配置更改的问题

我的要求是每天流式传输数百万条记录,并且它在外部配置参数上有很大的依赖关系。例如,用户可以随时更改Web应用程序中所需的设置,并且在进行更改后,必须使用新的应用程序配置参数来进行流式传输。这些是应用程序级别的配置,我们还有一些需要通过每个数据传递并进行过滤的动态排除参数。 我发现Flink没...

11得票2回答
Hazelcast Jet和Apache Flink有什么区别?

更具体地说,Hazelcast Jet解决了哪些Flink无法(同样)解决的使用情况,反之亦然?

11得票2回答
Kafka -> Flink DataStream -> MongoDB

我想设置Flink,以便将来自Apache Kafka的数据流转换并重定向到MongoDB。为了测试目的,我正在基于flink-streaming-connectors.kafka示例进行构建(https://github.com/apache/flink)。 Kafka流被Flink正确地...

11得票1回答
Flink Scala API "not enough arguments"

我在使用Apache Flink Scala API的过程中遇到了困难。例如,即使我使用官方文档中的示例,Scala编译器仍会给出大量编译错误。代码:object TestFlink { def main(args: Array[String]) { val env = Exec...

11得票5回答
如何从程序中停止flink流处理作业?

我正在尝试为一个将数据写入kafka话题并从同一kafka话题读取数据的Flink流作业创建JUnit测试,使用FlinkKafkaProducer09和FlinkKafkaConsumer09。我在生产中传递了一个测试数据:DataStream<String> stream = ...

11得票2回答
Apache Flink和Twitter Heron哪个更好?

有很多问题在比较Flink和Spark Streaming,Flink和Storm以及Storm和Heron。 这个问题的起源是因为Apache Flink和Twitter Heron都是真正的流处理框架(不像Spark Streaming那样是微批处理)。Twitter去年停用了Storm...