得票数最多 'apache-spark-dataset' 问题 - 第6页

关联标签

8得票1回答

如何在Spark Java中向新数据集添加一个带有值的列？

我正在使用Java Spark API创建一些数据集，这些数据集是从Hive表中提取的，使用spark.sql()方法进行填充。因此，在执行一些SQL操作（例如连接）之后，我获得了一个最终的数据集。我想做的是向该最终数据集添加一个新列，该列的所有行都具有值“1”。因此，您可以将其视为向...

javaapache-sparkdatasetapache-spark-datasetbigdata

8得票1回答

Spark数据集和java.sql.Date

假设我有一个类似于以下的Spark Dataset: scala> import java.sql.Date scala> case class Event(id: Int, date: Date, name: String) scala> val ds = Seq(Eve...

scalaapache-sparkapache-spark-datasetapache-spark-encoders

8得票1回答

Spark数据集：示例：无法生成编码器问题

我刚接触Spark，正在尝试运行一份用Scala编写的数据集示例，这是我在网上找到的。通过SBT运行时，我不停地收到以下错误： org.apache.spark.sql.AnalysisException: 无法为内部类生成编码器有什么想法是我忽略了什么吗？另外，如果您有更好的编...

scalaapache-sparkapache-spark-sqlapache-spark-datasetapache-spark-encoders

8得票1回答

在Apache Spark中的Printschema()函数

Dataset<Tweet> ds = sc.read().json("/path").as(Encoders.bean(Tweet.class)); Tweet class :- long id string user; string text; ds.printSch...

apache-sparkapache-spark-sqlapache-spark-dataset

8得票2回答

如何在group by和order by中使用Spark的lag和lead函数

i use : ` dataset.withColumn("lead",lead(dataset.col(start_date),1).over(orderBy(start_date))); 我只想按trackId添加分组，以便每组都可以使用任何聚合函数进行工作： +---------...

apache-sparkapache-spark-sqlapache-spark-dataset

8得票2回答

Spark数据集唯一ID性能 - row_number vs monotonically_increasing_id

我希望为我的数据集行分配唯一的ID。我知道有两种实现选项： First option: import org.apache.spark.sql.expressions.Window; ds.withColumn("id",row_number().over(Window.orderBy("...

scalaapache-sparkapache-spark-sqlapache-spark-dataset

8得票4回答

在Spark数组列中删除重复项

I have a given DataSet : +-------------------+--------------------+ | date| products| +-------------------+-------------...

javascalaapache-sparkapache-spark-sqlapache-spark-dataset

8得票1回答

使用正确的空值属性从case class创建Spark模式

为了自定义Estimator的transformSchema方法，我需要能够比较输入数据框架的模式与案例类中定义的模式。通常可以像下面概述的那样执行此操作，生成Spark StructType / Schema：从case类生成Spark StructType / Schema。然而，使用了错...

apache-sparkapache-spark-sqlapache-spark-mlapache-spark-datasetspark-csv

8得票2回答

与Scala Dataset＃transform方法等效的Pyspark转换方法

Spark Scala API有一个Dataset#transform方法，可以轻松地链接自定义的DataFrame转换，如下所示： val weirdDf = df .transform(myFirstCustomTransformation) .transform(another...

apache-sparkpysparkapache-spark-sqlapache-spark-dataset

8得票1回答

如何按组使用 approxQuantile？

Spark具有SQL函数percentile_approx()，其Scala对应函数是df.stat.approxQuantile()。然而，Scala对应函数不能用于分组数据集，例如df.groupby("foo").stat.approxQuantile()，如此回答：https://...

apache-sparkapache-spark-sqlapache-spark-dataset