73得票10回答
如何在联接后避免重复列?

我有两个数据框,它们具有以下列:df1.columns // Array(ts, id, X1, X2) 和df2.columns // Array(ts, id, Y1, Y2) 我完成之后val df_combined = df1.join(df2, Seq(ts,id)) 我最终得到...

72得票6回答
将Pandas数据框转换为Spark数据框时出现错误

我正在尝试将Pandas的DF转换为Spark的DF。 DF的头部:10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543 10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,2...

71得票5回答
PySpark:when子句中的多个条件

我想要修改数据框列(Age)中当前为空的单元格的值,但只有在另一列(Survived)对应的行中,其值为0时才执行此操作。如果Survived列中的值为1但Age列为空,则将其保留为空。我尝试使用&&运算符,但它没有起作用。以下是我的代码:tdata.withColumn("A...

71得票5回答
使用Spark DataFrames如何查询JSON数据列?

我有一个Cassandra表格,为了简单起见,它看起来像这样:key: text jsonData: text blobData: blob 我可以使用Spark和spark-cassandra-connector创建一个基本的数据框,方法如下:val df = sqlContext.read...

70得票2回答
使用Spark 1.4.0和Tachyon 0.6.4时,使用OFF_HEAP存储出现错误。

我正在尝试使用离堆存储在Spark 1.4.0和Tachyon 0.6.4上持久化我的RDD,方法如下:val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OF...

70得票3回答
将一个Spark DataFrame转换为pandas DataFrame。

有没有一种方法可以将Spark DataFrame(而不是RDD)转换为pandas DataFrame? 我尝试了以下方法:var some_df = Seq( ("A", "no"), ("B", "yes"), ("B", "yes"), ("B", "no") ).toD...

70得票6回答
在pyspark中检索DataFrame每个组的前n个

在pyspark中有一个DataFrame,数据如下:user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2...

70得票4回答
如何使用PySpark将向量拆分为列

背景:我有一个包含两列:单词和向量的DataFrame。其中"vector"列的数据类型为VectorUDT。 示例:word | vector assert | [435,323,324,212...] 我希望你能将其翻译成中文:word | v1 | v2 | v3 |...

70得票3回答
df.repartition和DataFrameWriter partitionBy的区别是什么?

DataFrame.repartition()和DataFrameWriter.partitionBy()方法有什么区别? 我希望两者都可以基于数据框列进行分区?还是说它们之间有区别?

70得票2回答
使用Spark加载数据并将文件名添加为数据框列

我正在使用一个包装函数将一些数据加载到Spark中: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\...