得票数最多 'apache-spark-dataset' 问题

标签列表

关联标签

340得票14回答

Spark中DataFrame、Dataset和RDD的区别

我想知道在Apache Spark中，RDD和DataFrame (Spark 2.0.0 DataFrame是一个Dataset [Row]的类型别名)之间有什么区别？你能够将一个转换为另一个吗？

dataframeapache-sparkapache-spark-sqlrddapache-spark-dataset

167得票9回答

如何在数据集中存储自定义对象？

根据介绍Spark数据集：随着我们期待Spark 2.0的到来，我们计划对数据集(Datasets)进行一些令人兴奋的改进，具体包括：... 自定义编码器 - 尽管我们目前为各种类型自动生成编码器，但我们想开放一个API以支持自定义对象。试图将自定义类型存储在Dataset...

scalaapache-sparkapache-spark-datasetapache-spark-encoders

69得票3回答

创建自定义case class的数据集时，为什么会出现“无法找到存储在数据集中的类型的编码器”的错误？

Spark 2.0（最终版）使用Scala 2.11.8。以下超级简单的代码会导致编译错误Error：（17，45）无法找到存储在数据集中的类型的编码器。基本类型（Int，String等）和产品类型（case类）通过导入spark.implicits._进行支持。支持序列化其他类型将在未来...

scalaapache-sparkapache-spark-datasetapache-spark-encoders

43得票4回答

尝试将数据帧行映射到更新行时出现编码器错误。

当我尝试在我的代码中执行以下操作时dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(...

scalaapache-sparkapache-spark-sqlapache-spark-datasetapache-spark-encoders

40得票5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

1. SparkContext，JavaSparkContext，SQLContext和SparkSession有什么区别？ 2. 是否有一种方法可以使用SparkSession转换或创建Context？ 3. 我是否可以使用一个入口SparkSession完全替换所有的Contexts？ 4...

javascalaapache-sparkrddapache-spark-dataset

37得票1回答

DataFrame / Dataset groupBy行为/优化

假设我们有一个名为df的DataFrame，包含以下列：名称、姓氏、尺寸、宽度、长度、重量现在我们想执行一些操作，例如创建一些包含尺寸和宽度数据的DataFrame。val df1 = df.groupBy("surname").agg( sum("size") ) val df...

performanceapache-sparkdataframeapache-spark-sqlapache-spark-dataset

35得票2回答

Spark数据集的行类型编码器

我想为DataSet中的Row类型编写一个编码器，用于我正在进行的映射操作。实质上，我不知道如何编写编码器。以下是一个映射操作的示例：在下面的示例中，我想返回Dataset<Row>而不是返回Dataset<String>。 Dataset<String...

javaapache-sparkapache-spark-sqlapache-spark-datasetapache-spark-encoders

34得票2回答

使用Spark Datasets在Scala中执行类型化连接

我喜欢Spark Datasets，因为它们让我在编译时获得分析错误和语法错误，并允许我使用getter而不是硬编码的名称/数字处理数据。大多数计算可以通过Dataset的高级API完成。例如，通过访问数据集类型对象，执行agg、select、sum、avg、map、filter或groupB...

scalaapache-sparkjoinapache-spark-sqlapache-spark-dataset

32得票3回答

Spark 2.0 数据集与数据框架的区别

我使用 Spark 2.0.1 开始入门，有些问题仍未得到充分的解答。我阅读了大量文档，但仍无法找到足够的答案： df.select("foo") 和 df.select($"foo") 有什么区别？我理解得对吗： myDataSet.map(foo.someVal) 是类型安全的，不...

scalaapache-sparkapache-spark-sqlapache-spark-datasetapache-spark-2.0

32得票3回答

Spark的createOrReplaceTempView与createGlobalTempView有何区别？

Spark Dataset 2.0 提供了两个函数createOrReplaceTempView和createGlobalTempView。我无法理解这两个函数之间的基本区别。根据API文档: createOrReplaceTempView: 此临时视图的生命周期与用于创建此数据集的...

apache-sparkapache-spark-dataset