如何将Cassandra中的数据加载到HDFS?

3

我有一份数据存储在 Apache Cassandra 中,我想使用 Hadoop 生态系统工具执行 map/reduce 作业。

如何将数据从 Cassandra 加载到 HDFS?

除了 Cassandra 存储处理程序/brisk 外,是否还有其他的存储处理程序可用?

3个回答

2

1
考虑查看这个项目pygmalion。它可以让你将数据从Cassandra导出到HDFS,然后使用Pig Latin进行查询。

0

你可以用多种方式来实现。可以编写一个 MapReduce 任务从 Cassandra 中读取数据并将其写入 HDFS,或者编写 PigLatin 脚本来完成。请参考this获取更多信息。


实际上,我们希望使用生态系统工具(如Hive/Pig)加载Cassandra数据到Hadoop中。但是由于Cassandra Storage Handler的问题,我们在访问数据时遇到了困难。使用Pig时,它只能在本地模式下运行,无法在MapReduce模式下运行。此外,我们也无法通过Pig Latin将结果值存回Cassandra。 - kannadhasan
问题到底是什么? - Tariq
我们想通过Hive将数据从Cassandra加载到Hadoop中。我的Cassandra、Hadoop和Hive都是开源分发的。我想在Java中嵌入HiveQL查询。我们在使用Cassandra存储处理程序访问数据时遇到了问题。除了Cassandra存储处理程序之外,我们还有其他选择吗? - kannadhasan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接