13得票4回答
如何将Spark Row的数据集转换为字符串?

我已经编写了使用SparkSQL访问Hive表的代码。以下是代码:SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("...

12得票1回答
Spark Java:使用给定的模式创建新数据集

我有这段Scala代码,它已经可以很好地运行:val schema = StructType(Array( StructField("field1", StringType, true), StructField("field2", TimestampType,...

12得票1回答
Apache Spark 2.0:java.lang.UnsupportedOperationException: 找不到java.time.LocalDate的编码器。

我正在使用Apache Spark 2.0,并为DataSet创建case class以提及模式。 当我尝试根据如何在Dataset中存储自定义对象? 定义自定义编码器时,对于java.time.LocalDate,我遇到了以下异常:java.lang.UnsupportedOperation...

12得票1回答
Spark的Row和InternalRow类型之间的区别

目前,Spark有两种实现Row的方式:import org.apache.spark.sql.Row import org.apache.spark.sql.catalyst.InternalRow 为什么需要同时拥有它们?它们代表相同的编码实体,但一个用于内部API,另一个用于外部API吗?

12得票3回答
java.lang.UnsupportedOperationException: 在写入 Spark 时出现错误

当我尝试将数据集写入Parquet文件时,出现以下错误。18/11/05 06:25:43 ERROR FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage ...

11得票2回答
为什么在Apache Spark SQL中列会变成可空?

为什么在DataFrame中不存在NaN值的情况下,有些函数执行后会使用nullable = true ? val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("fo...

11得票2回答
从CSV文件创建Spark数据集

我想从一个简单的CSV文件创建一个Spark Dataset。以下是CSV文件的内容:name,state,number_of_people,coolness_index trenton,nj,"10","4.5" bedford,ny,"20","3.3" patterson,nj,"30"...

10得票2回答
何时使用Spark DataFrame/Dataset API,何时使用普通RDD?

Spark SQL DataFrame/Dataset 执行引擎有几个极其高效的时间和空间优化(例如 InternalRow 和表达式 codeGen)。根据许多文档,它似乎是大多数分布式算法比 RDD 更好的选择。 然而,我做了一些源代码研究,仍然不太确定。我毫不怀疑 InternalRo...

10得票2回答
如何在使用Spark模式读取CSV时删除格式不正确的行?

我在使用Spark DataSet加载CSV文件时,更喜欢清晰地指定模式。但我发现有一些行不符合我的模式。一个列应该是double类型,但有些行是非数字值。是否可以轻松地从DataSet中过滤掉所有不符合我的模式的行? val schema = StructType(StructField(...

10得票1回答
Scala Spark:如何使用带有蛇形命名的模式的数据集为一个case类提供支持?

我有以下的case class:case class User(userId: String) 以及以下模式:+--------------------+------------------+ | col_name| data_type| +-------...