22得票7回答
Flume 和 Sqoop 有什么区别?

Flume和Sqoop都是数据移动工具,它们之间的区别是什么?在什么情况下应该使用Flume或Sqoop?

20得票1回答
Flume 与 Kafka 的比较及其他选项

也许这个问题以前已经被问过,但考虑到这些技术已经成熟,今天再次考虑这个问题是有益的。我们希望使用flume、kafka、scribe或其他技术将流式的Facebook和Twitter个人资料信息存储到HBase中,以便以后进行分析。我们正在考虑使用flume来实现这个目的,但我没有使用其他技术...

18得票5回答
在Kafka读取消息时出现的重新平衡问题

我正在尝试读取Kafka主题上的消息,但是我无法读取它。 进程在一段时间后被终止,而没有读取任何消息。 这里是我收到的重新平衡错误: [2014-03-21 10:10:53,215] ERROR Error processing message, stopping consumer: ...

18得票3回答
什么是用于Hadoop的Java/Scala数据分析管道构建的最成熟的库?

最近我找到了很多选项,主要是通过成熟度和稳定性的比较来决定它们的优劣。 Crunch - https://github.com/cloudera/crunch Scrunch - https://github.com/cloudera/crunch/tree/master/scrunch ...

14得票2回答
如何高效地将数据从Kafka移动到Impala表格?

以下是当前流程的步骤: Flafka 将日志写入HDFS上的“landing zone”。 由Oozie调度的作业将完整的文件从landing zone复制到暂存区。 使用暂存区作为其位置的Hive表对暂存数据进行“模式化”处理。 将暂存表中的记录添加到永久Hive表中(例如,insert...

13得票6回答
在运行fatjar时无法加载log4j2

我正在开发一个项目,使用log4j2进行日志记录。在Intellij中进行开发时,一切都很正常,日志记录也按预期完成。log4j2.xml通过Java属性链接到Intellij设置中传递给JVM启动。但是,一旦我尝试运行独立的Gradle构建的fat-jar文件,我遇到了以下问题:java -...

12得票1回答
如何配置Flume以侦听Web API的HTTP请求

我已经建立了一个API Web应用程序,发布在IIS服务器上。我试图配置Apache Flume来监听该Web API并将HTTP请求的响应保存在HDFS中,这是我需要监听的POST方法: [HttpPost] public IEnumerable<Data> obt...

12得票7回答
JMeter - 找不到TestPlan类

我有一个简单的Flume设置,其中包含HTTP源和一个将POST请求负载写入文件的汇。 (这个完整的设置在Linux机器上)。 之后我的任务是对此设置进行性能测试。因此,我决定使用JMeter(这是我第一次使用它)。 所以我在我的Windows机器上(使用GUI)创建了一个测试计划,然后将...

12得票3回答
如何设置HTTP源以测试Flume设置?

我对Flume和Hadoop都是新手。我们正在开发一个BI模块,可以将来自不同服务器的所有日志存储在HDFS中。 为此,我正在使用Flume。我刚开始尝试了一下,成功创建了一个节点,但现在我希望设置一个HTTP源和一个汇聚器,将通过HTTP的传入请求写入本地文件。 有什么建议吗? 提前感...

11得票2回答
Apache Flume和Apache Flink的区别

我需要从某个来源读取数据流(在我的情况下是UDP流,但这并不重要),转换每个记录并将其写入HDFS。 对于这个目的,使用Flume或Flink有什么区别吗? 我知道可以使用自定义拦截器在Flume中转换每个事件。 但是我在Flink上还是新手,所以对我来说它看起来会做同样的事情。 应该...