10得票1回答
Flink作业未分布到多台机器上。

我在 Apache Flink 中有一个小的使用案例,它是一个批处理系统。我需要处理一个文件集合,每个文件的处理必须由一台机器处理。我有下面的代码。始终只有一个任务插槽被占用,并且文件是一个接一个地处理。我有6个节点(因此有6个任务管理器),每个节点配置了4个任务插槽。所以,我期望每次处理24...

9得票4回答
本地 Flink 配置如何在 IDE 中以独立模式运行

如果我想直接从Intellij本地运行Flink应用,但需要指定配置参数(例如fs.hdfs.hdfssite以设置S3访问),除了ExecutionEnvironment.createLocalEnvironment(conf)外,是否还有其他提供这些配置参数的方法?如果我想使用Stream...

9得票1回答
Flink:数据源输出出错:无法读取用户代码包装器。

我刚开始接触Flink。我写了以下代码,但出现了“数据源的输出导致错误:无法读取用户代码包装器”的错误。 我做错了什么吗? 版本:Flink v 0.9.1(hadoop 1),不使用hadoop:本地执行 Shell:scala shell 代码: val env = Executi...

9得票1回答
为什么有人会在Tez上运行Spark/Flink?

在Saha等人的Tez论文中,展示了Hadoop 2与Tez的以下模块化架构: 为什么有人会在Tez上运行Spark/Flink? 有哪些优点?更好地利用YARN?

9得票1回答
Apache Flink的JoinFunction和CoGroupFunction有什么区别?

在Apache Flink中,“JoinFunction”和“CoGroupFunction”有什么区别?它们的语义和执行方式有何不同?

9得票2回答
如何正确处理自定义MapFunction中的错误?

我已经为我的Apache Flink流程实现了MapFunction。它解析传入的元素并将它们转换为其他格式,但是有时可能会出现错误(即传入的数据无效)。 我看到处理它的两种可能方式: 忽略无效元素,但似乎我不能忽略错误,因为对于任何传入的元素,我必须提供传出元素。 将传入的元素拆分为有...

9得票1回答
Apache Flink中的并行度

在Flink中,我能否为程序不同部分设置不同的并行度?例如,Flink如何解析以下示例代码?两个自定义划分器MyPartitioner1和MyPartitioner2将输入数据分成4个和2个分区。 partitionedData1 = inputData1 .partitionCusto...

9得票1回答
Apache Flink中的全局排序

数据集的sortPartition方法基于某些指定字段在本地对数据集进行排序。在Flink中,如何以高效的方式全局排序大型数据集?

9得票5回答
困惑于FLINK任务槽

我知道任务管理器可以有多个任务槽。 但是,什么是任务槽?是JVM进程、内存中的对象还是线程?

9得票1回答
Flink中任务、作业和子任务之间的区别

我是新手,正在学习 flink,想要了解: 作业 任务 子任务 我在文档中进行了搜索,但仍然不清楚它们之间的主要区别。