11得票1回答
如何在Flink Standalone中查看日志或Sysout

我在Flink独立模式下运行我的应用程序,但无法在控制台或FLINK_HOME/log中找到其sysout。 有人知道我在哪里可以查看应用程序的调试日志吗?以及如何知道我的应用程序在哪些TM上运行?

11得票2回答
Apache Flume和Apache Flink的区别

我需要从某个来源读取数据流(在我的情况下是UDP流,但这并不重要),转换每个记录并将其写入HDFS。 对于这个目的,使用Flume或Flink有什么区别吗? 我知道可以使用自定义拦截器在Flume中转换每个事件。 但是我在Flink上还是新手,所以对我来说它看起来会做同样的事情。 应该...

11得票1回答
Flink: 在CoFlatMapFunction中共享状态

在CoFlatMapFunction方面遇到了一些困难。如果我将它放在窗口之前的DataStream上,它似乎可以正常工作,但如果将其放在窗口的“apply”函数之后,就会出现错误。 我正在测试两个流,主要的“Features”在flatMap1上不断地输入数据,控制流“Model”在fla...

11得票2回答
使用Amazon S3运行Apache Flink

有人成功使用Apache Flink 0.9处理存储在AWS S3上的数据吗? 我发现他们正在使用自己的S3FileSystem而不是Hadoop中的一个... 看起来它无法正常工作。我将以下路径s3://bucket.s3.amazonaws.com/folder放入其中,但是出现了以下异常...

11得票3回答
如何在Flink中引用外部Jar包

大家好。我试图以将公司的jar包复制到所有任务管理器的$FLINK/lib中的方式在Flink中引用它,但失败了。而我不想打包一个过于庞大且耗时的fat jar。我认为第一种方法也不是一个好主意,因为我必须在整个集群中管理jar包。有人知道如何解决这个问题吗?任何建议都将不胜感激。

11得票2回答
Flink - 使用Dagger注入 - 不可序列化?

我使用最新的git版本的Flink将数据从kafka流式传输到cassandra。为了方便单元测试,我通过Dagger添加了依赖注入。 ObjectGraph似乎正常设置,但由于Flink标记“内部对象”为“不可序列化”,所以会出现问题。如果我直接包含这些对象,则可以正常工作-那么有什么区别...

11得票2回答
Apache Flink中的任务分配

考虑一个拥有多个节点的 Flink 集群,每个节点都有一个多核处理器。如果我们根据内存大小和核心数量配置插槽数,那么 Apache Flink 如何在节点和空闲插槽之间分配任务?它们是否被公平对待? 是否有办法使/configure Flink 在根据节点可用的核数配置任务插槽时公平对待插槽?...

11得票2回答
Apache Flink - 如果 x 分钟没有收到数据,则发送事件

我该如何使用Flink的DataStream API实现一个操作符,当从数据流中未接收到一定时间的数据时,发送一个事件?

11得票1回答
如何在Apache Flink中使用Scala XML?

我正在尝试在Flink中使用Scala XML库解析XML,但我无法使其正常工作。请注意,我需要在同一个处理函数中同时使用序列化和非序列化(字符串)版本。我已经尝试了不同的解决方案,它们在IntelliJ中都有效,但在Flink集群上运行时却不行。它们总是返回不同的java.lang.Link...

11得票1回答
如何在数据流中计算独特单词数?

在 Flink Streaming 中,有没有一种方法可以统计数据流中唯一单词的数量?结果应该是一个数字流,不断增加。