我发现了这篇文章,它声称对比了Samza和Storm,但似乎只涉及实现细节。 这两个分布式计算引擎在使用情况上有何不同?每种工具适用于哪种类型的作业?
我曾经使用过Storm和Spark,但是Samza还比较新。 我不明白为什么要引入Samza,当Storm已经可以用于实时处理。Spark提供了内存近似实时处理,并拥有其他非常有用的组件,如graphx和mllib。 Samza带来了哪些改进?还有哪些改进是可能的呢?
我目前正在编写一个Samza脚本,它将仅从Kafka主题中获取数据并将数据输出到另一个Kafka主题。我已经编写了一个非常基本的StreamTask,但在执行时出现错误。 错误如下: Exception in thread "main" org.apache.samza.SamzaExce...
我正在运行一个将数据写入Kafka主题的Samza流作业。 Kafka正在运行一个由3个节点组成的集群。 Samza作业部署在yarn上。 我们在容器日志中看到了很多这样的异常: INFO [2018-10-16 11:14:19,410] [U:2,151,F:455,T:2,606,M...
我有多个Samza作业要运行。我可以成功地运行第一个作业。然而,第二个作业似乎停留在ACCEPTED状态,直到我杀死第一个作业才能转换为RUNNING状态。 以下是从YARN UI中查看的内容: 这里是第二个作业的详细信息,您可以看到没有分配节点: 我有2个数据节点,因此应该能够运行...