11得票2回答
使用Spark Streaming从Cassandra读取数据

我在使用Spark Streaming从Cassandra读取数据时遇到了问题。 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md#reading-from-cassand...

13得票2回答
Scala反射异常: <none> 不是一个术语。

我在Spark中有以下代码:rdd .map(processFunction(_)) .saveToCassandra("keyspace", "tableName") 何处def processFunction(src: String): Seq[Any] = src match...

71得票5回答
使用Spark DataFrames如何查询JSON数据列?

我有一个Cassandra表格,为了简单起见,它看起来像这样:key: text jsonData: text blobData: blob 我可以使用Spark和spark-cassandra-connector创建一个基本的数据框,方法如下:val df = sqlContext.read...

8得票1回答
如何在多节点Cassandra集群中设置Spark?

首先,我没有使用DSE Cassandra。我正在自己构建集群,并使用Microsoft Azure托管服务器。 我有一个2个节点的Cassandra集群,我已经成功地在单个节点上安装了Spark,但我找不到任何关于在多节点集群上设置它的在线资源。 这不是一个重复的问题:如何设置Spark...

83得票8回答
如何列出所有的Cassandra表

在cassandra数据库中有许多表格,其中包含名为user_id的列。user_id的值是指存储在用户表中的用户。由于一些用户被删除了,我想要删除所有包含名为user_id的列的孤立记录。 是否有一种方法可以使用CassandraSQLContext或任何其他内置方法或自定义过程列出所有表...

7得票1回答
无法在spark-cassandra-connector中更改身份验证

我正在创建一个Spark-Cassandra应用程序(Spark 1.6.0 &amp; spark-cassandra-connector 1.6.0-M1),其中我要求多个用户输入他们的Cassandra属性,如主机、用户名、密码、键空间、表和其他属性。 为了动态更改上述属性并从Cass...

10得票2回答
Datastax Cassandra驱动程序抛出CodecNotFoundException异常

以下是确切的异常:com.datastax.driver.core.exceptions.CodecNotFoundException: Codec not found for requested operation: [varchar &lt;-> java.math.BigDecimal]...

7得票1回答
当使用数据框架时,如何将限制谓词下推至Cassandra?

我有一个大的Cassandra表格。我想从Cassandra中仅加载50行。以下是代码: val ds = sparkSession.read .format("org.apache.spark.sql.cassandra") .options(Map("table"...

15得票6回答
如何解决java.lang.ClassCastException:无法将scala.collection.immutable.List的实例分配给字段类型scala.collection.Seq?

这个错误是最难追踪的。我不确定发生了什么事情。我在我的本地机器上运行一个Spark集群。因此,整个Spark集群都在一个主机(127.0.0.1)下,我在独立模式下运行。JavaPairRDD&lt;byte[], Iterable&lt;CassandraRow&gt;&gt; cassan...

11得票1回答
如何从Spark UI中检索指标,例如输出大小和写入记录数?

在任务或作业完成后,我如何在控制台(Spark Shell或Spark Submit Job)上收集这些指标。 我们正在使用Spark从Mysql加载数据到Cassandra,数据量非常大(例如:约200 GB和600M行)。当任务完成后,我们想要验证Spark究竟处理了多少行?我们可以从S...