也许这个问题以前已经被问过,但考虑到这些技术已经成熟,今天再次考虑这个问题是有益的。我们希望使用flume、kafka、scribe或其他技术将流式的Facebook和Twitter个人资料信息存储到HBase中,以便以后进行分析。我们正在考虑使用flume来实现这个目的,但我没有使用其他技术...
我正在尝试读取Kafka主题上的消息,但是我无法读取它。 进程在一段时间后被终止,而没有读取任何消息。 这里是我收到的重新平衡错误: [2014-03-21 10:10:53,215] ERROR Error processing message, stopping consumer: ...
最近我找到了很多选项,主要是通过成熟度和稳定性的比较来决定它们的优劣。 Crunch - https://github.com/cloudera/crunch Scrunch - https://github.com/cloudera/crunch/tree/master/scrunch ...
以下是当前流程的步骤: Flafka 将日志写入HDFS上的“landing zone”。 由Oozie调度的作业将完整的文件从landing zone复制到暂存区。 使用暂存区作为其位置的Hive表对暂存数据进行“模式化”处理。 将暂存表中的记录添加到永久Hive表中(例如,insert...
我已经建立了一个API Web应用程序,发布在IIS服务器上。我试图配置Apache Flume来监听该Web API并将HTTP请求的响应保存在HDFS中,这是我需要监听的POST方法: [HttpPost] public IEnumerable<Data> obt...
我有一个简单的Flume设置,其中包含HTTP源和一个将POST请求负载写入文件的汇。 (这个完整的设置在Linux机器上)。 之后我的任务是对此设置进行性能测试。因此,我决定使用JMeter(这是我第一次使用它)。 所以我在我的Windows机器上(使用GUI)创建了一个测试计划,然后将...
我对Flume和Hadoop都是新手。我们正在开发一个BI模块,可以将来自不同服务器的所有日志存储在HDFS中。 为此,我正在使用Flume。我刚开始尝试了一下,成功创建了一个节点,但现在我希望设置一个HTTP源和一个汇聚器,将通过HTTP的传入请求写入本地文件。 有什么建议吗? 提前感...
我需要从某个来源读取数据流(在我的情况下是UDP流,但这并不重要),转换每个记录并将其写入HDFS。 对于这个目的,使用Flume或Flink有什么区别吗? 我知道可以使用自定义拦截器在Flume中转换每个事件。 但是我在Flink上还是新手,所以对我来说它看起来会做同样的事情。 应该...