得票数最多 'apache-spark-dataset' 问题 - 第4页

关联标签

13得票4回答

如何将Spark Row的数据集转换为字符串？

我已经编写了使用SparkSQL访问Hive表的代码。以下是代码：SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("...

javastringapache-sparkapache-spark-sqlapache-spark-dataset

12得票1回答

Spark Java：使用给定的模式创建新数据集

我有这段Scala代码，它已经可以很好地运行：val schema = StructType(Array( StructField("field1", StringType, true), StructField("field2", TimestampType,...

javascalaapache-sparkapache-spark-dataset

12得票1回答

Apache Spark 2.0：java.lang.UnsupportedOperationException: 找不到java.time.LocalDate的编码器。

我正在使用Apache Spark 2.0，并为DataSet创建case class以提及模式。当我尝试根据如何在Dataset中存储自定义对象? 定义自定义编码器时，对于java.time.LocalDate，我遇到了以下异常：java.lang.UnsupportedOperation...

scalaapache-sparkapache-spark-sqlapache-spark-datasetapache-spark-encoders

12得票1回答

Spark的Row和InternalRow类型之间的区别

目前，Spark有两种实现Row的方式：import org.apache.spark.sql.Row import org.apache.spark.sql.catalyst.InternalRow 为什么需要同时拥有它们？它们代表相同的编码实体，但一个用于内部API，另一个用于外部API吗？

apache-sparkapache-spark-sqlapache-spark-dataset

12得票3回答

java.lang.UnsupportedOperationException: 在写入 Spark 时出现错误

当我尝试将数据集写入Parquet文件时，出现以下错误。18/11/05 06:25:43 ERROR FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage ...

apache-sparkapache-spark-dataset

11得票2回答

为什么在Apache Spark SQL中列会变成可空？

为什么在DataFrame中不存在NaN值的情况下，有些函数执行后会使用nullable = true ? val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("fo...

apache-sparkapache-spark-sqlapache-spark-dataset

11得票2回答

从CSV文件创建Spark数据集

我想从一个简单的CSV文件创建一个Spark Dataset。以下是CSV文件的内容：name,state,number_of_people,coolness_index trenton,nj,"10","4.5" bedford,ny,"20","3.3" patterson,nj,"30"...

apache-sparkapache-spark-dataset

10得票2回答

何时使用Spark DataFrame/Dataset API，何时使用普通RDD？

Spark SQL DataFrame/Dataset 执行引擎有几个极其高效的时间和空间优化（例如 InternalRow 和表达式 codeGen）。根据许多文档，它似乎是大多数分布式算法比 RDD 更好的选择。然而，我做了一些源代码研究，仍然不太确定。我毫不怀疑 InternalRo...

apache-sparkapache-spark-sqlapache-spark-dataset

10得票2回答

如何在使用Spark模式读取CSV时删除格式不正确的行？

我在使用Spark DataSet加载CSV文件时，更喜欢清晰地指定模式。但我发现有一些行不符合我的模式。一个列应该是double类型，但有些行是非数字值。是否可以轻松地从DataSet中过滤掉所有不符合我的模式的行？ val schema = StructType(StructField(...

scalacsvapache-sparkapache-spark-dataset

10得票1回答

Scala Spark：如何使用带有蛇形命名的模式的数据集为一个case类提供支持？

我有以下的case class：case class User(userId: String) 以及以下模式：+--------------------+------------------+ | col_name| data_type| +-------...

scalaapache-sparkapache-spark-dataset