340得票14回答
Spark中DataFrame、Dataset和RDD的区别

我想知道在Apache Spark中,RDD和DataFrame (Spark 2.0.0 DataFrame是一个Dataset [Row]的类型别名)之间有什么区别? 你能够将一个转换为另一个吗?

167得票9回答
如何在数据集中存储自定义对象?

根据介绍Spark数据集: 随着我们期待Spark 2.0的到来,我们计划对数据集(Datasets)进行一些令人兴奋的改进,具体包括:... 自定义编码器 - 尽管我们目前为各种类型自动生成编码器,但我们想开放一个API以支持自定义对象。 试图将自定义类型存储在Dataset...

69得票3回答
创建自定义case class的数据集时,为什么会出现“无法找到存储在数据集中的类型的编码器”的错误?

Spark 2.0(最终版)使用Scala 2.11.8。以下超级简单的代码会导致编译错误Error:(17,45)无法找到存储在数据集中的类型的编码器。 基本类型(Int,String等)和产品类型(case类)通过导入spark.implicits._进行支持。 支持序列化其他类型将在未来...

43得票4回答
尝试将数据帧行映射到更新行时出现编码器错误。

当我尝试在我的代码中执行以下操作时dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(...

40得票5回答
SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么?

1. SparkContext,JavaSparkContext,SQLContext和SparkSession有什么区别? 2. 是否有一种方法可以使用SparkSession转换或创建Context? 3. 我是否可以使用一个入口SparkSession完全替换所有的Contexts? 4...

37得票1回答
DataFrame / Dataset groupBy行为/优化

假设我们有一个名为df的DataFrame,包含以下列: 名称、姓氏、尺寸、宽度、长度、重量 现在我们想执行一些操作,例如创建一些包含尺寸和宽度数据的DataFrame。val df1 = df.groupBy("surname").agg( sum("size") ) val df...

35得票2回答
Spark数据集的行类型编码器

我想为DataSet中的Row类型编写一个编码器,用于我正在进行的映射操作。实质上,我不知道如何编写编码器。 以下是一个映射操作的示例: 在下面的示例中,我想返回Dataset<Row>而不是返回Dataset<String>。 Dataset<String...

34得票2回答
使用Spark Datasets在Scala中执行类型化连接

我喜欢Spark Datasets,因为它们让我在编译时获得分析错误和语法错误,并允许我使用getter而不是硬编码的名称/数字处理数据。大多数计算可以通过Dataset的高级API完成。例如,通过访问数据集类型对象,执行agg、select、sum、avg、map、filter或groupB...

32得票3回答
Spark 2.0 数据集与数据框架的区别

我使用 Spark 2.0.1 开始入门,有些问题仍未得到充分的解答。我阅读了大量文档,但仍无法找到足够的答案: df.select("foo") 和 df.select($"foo") 有什么区别? 我理解得对吗: myDataSet.map(foo.someVal) 是类型安全的,不...

32得票3回答
Spark的createOrReplaceTempView与createGlobalTempView有何区别?

Spark Dataset 2.0 提供了两个函数createOrReplaceTempView和createGlobalTempView。 我无法理解这两个函数之间的基本区别。 根据API文档: createOrReplaceTempView: 此临时视图的生命周期与用于创建此数据集的...