8得票1回答
如何在Spark Java中向新数据集添加一个带有值的列?

我正在使用Java Spark API创建一些数据集,这些数据集是从Hive表中提取的,使用spark.sql()方法进行填充。 因此,在执行一些SQL操作(例如连接)之后,我获得了一个最终的数据集。 我想做的是向该最终数据集添加一个新列,该列的所有行都具有值“1”。 因此,您可以将其视为向...

8得票1回答
Spark数据集和java.sql.Date

假设我有一个类似于以下的Spark Dataset: scala> import java.sql.Date scala> case class Event(id: Int, date: Date, name: String) scala> val ds = Seq(Eve...

8得票1回答
Spark数据集:示例:无法生成编码器问题

我刚接触Spark,正在尝试运行一份用Scala编写的数据集示例,这是我在网上找到的。 通过SBT运行时,我不停地收到以下错误: org.apache.spark.sql.AnalysisException: 无法为内部类生成编码器 有什么想法是我忽略了什么吗? 另外,如果您有更好的编...

8得票1回答
在Apache Spark中的Printschema()函数

Dataset<Tweet> ds = sc.read().json("/path").as(Encoders.bean(Tweet.class)); Tweet class :- long id string user; string text; ds.printSch...

8得票2回答
如何在group by和order by中使用Spark的lag和lead函数

i use : ` dataset.withColumn("lead",lead(dataset.col(start_date),1).over(orderBy(start_date))); 我只想按trackId添加分组,以便每组都可以使用任何聚合函数进行工作: +---------...

8得票2回答
Spark数据集唯一ID性能 - row_number vs monotonically_increasing_id

我希望为我的数据集行分配唯一的ID。我知道有两种实现选项: First option: import org.apache.spark.sql.expressions.Window; ds.withColumn("id",row_number().over(Window.orderBy("...

8得票4回答
在Spark数组列中删除重复项

I have a given DataSet : +-------------------+--------------------+ | date| products| +-------------------+-------------...

8得票1回答
使用正确的空值属性从case class创建Spark模式

为了自定义Estimator的transformSchema方法,我需要能够比较输入数据框架的模式与案例类中定义的模式。通常可以像下面概述的那样执行此操作,生成Spark StructType / Schema:从case类生成Spark StructType / Schema。然而,使用了错...

8得票2回答
与Scala Dataset#transform方法等效的Pyspark转换方法

Spark Scala API有一个Dataset#transform方法,可以轻松地链接自定义的DataFrame转换,如下所示: val weirdDf = df .transform(myFirstCustomTransformation) .transform(another...

8得票1回答
如何按组使用 approxQuantile?

Spark具有SQL函数percentile_approx(),其Scala对应函数是df.stat.approxQuantile()。 然而,Scala对应函数不能用于分组数据集,例如df.groupby("foo").stat.approxQuantile(),如此回答:https://...