Kafka作为真相来源是推荐的吗？

Question

Kafka作为真相来源是推荐的吗？

apache-sparkcassandraapache-kafkaapache-storm

3

我们的应用程序需要非常高的写入吞吐量（在高峰时期每秒数千次写入），并且数据需要进入多个数据存储，如Elastic-Search、HDFS、Cassandra和Cache。（没有关系型数据库，谢天谢地）

如何处理这个问题是最好的方式？

将Kafka作为真相来源，让所有其他数据存储可以通过Spark/Storm流式传输读取，这是一个好主意吗？

Kafka会有数据丢失的风险吗？与直接写入Cassandra相比，数据丢失的潜在风险是否更大？

编辑：我看到的一个问题是，Cassandra强加的约束条件与Kafka强加的不同。由于Kafka不强制执行任何限制并且将接受任何数据，因此它可能会通过向Kafka写入数据给应用程序提供错误的成功事务感觉。由于某些约束条件在Cassandra中被违反，相同的数据可能无法成功写入Cassandra。来自Cassandra的约束失败示例：

InvalidRequest: Error from server: code=2200 [Invalid query] message="Invalid INTEGER constant (500) for "name" of type text"

。应用程序可能会经历某些数据类型的变化，而Kafka正在愉快地接受它，而下游的Cassandra消费者正在失败。（如何通过暂存、QA等阶段进行更改是另一回事）。因此，使用Kafka作为真相来源的风险在于它会提供错误的成功感觉。

- user2250246

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Matthias J. Sax · Accepted Answer

把 Kafka 作为真相来源，所有其他数据存储都可以从中读取是一个好主意吗？

完全可以。Kafka 最初就是为这种模式设计的。即使 Kafka 现在已不仅仅是消息代理/发布-订阅系统，也在 Kafka 0.10 中添加了流处理功能。

Kafka 存在数据丢失的风险吗？

只要你的数据被确认（acked），就不存在数据丢失的风险。在 Kafka 中，你可以同步或异步地写入，还可以配置在生产者接收到“ack”之前需要有多少个代理副本复制了你的数据。详见 http://docs.confluent.io/current/clients/producer.html

Kafka 的数据丢失潜在风险比直接写入 Cassandra 更大吗？

我对 Casandra 不是很熟悉，但我认为 Casandra 并没有比 Kafka 提供更强的容错能力——这一切都取决于你配置的副本数量（你可以为 Casandra 和 Kafka 都进行配置）。

关于 Kafka 中可能存在损坏数据的情况：Kafka 不会检查任何写入的数据，它只处理代理侧的 byte[]。因此，是的，你应该在生产者上应用策略，以确保不会将损坏的数据写入主题。但是，你可以使用 AVRO 作为数据类型，这将有助于防止损坏的数据。