得票数最多 'apache-spark-sql' 问题 - 第8页

关联标签

73得票10回答

如何在联接后避免重复列？

我有两个数据框，它们具有以下列：df1.columns // Array(ts, id, X1, X2) 和df2.columns // Array(ts, id, Y1, Y2) 我完成之后val df_combined = df1.join(df2, Seq(ts,id)) 我最终得到...

scalaapache-sparkapache-spark-sql

72得票6回答

将Pandas数据框转换为Spark数据框时出现错误

我正在尝试将Pandas的DF转换为Spark的DF。 DF的头部：10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543 10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,2...

pythonpandasapache-sparkapache-spark-sql

71得票5回答

PySpark：when子句中的多个条件

我想要修改数据框列（Age）中当前为空的单元格的值，但只有在另一列（Survived）对应的行中，其值为0时才执行此操作。如果Survived列中的值为1但Age列为空，则将其保留为空。我尝试使用&&运算符，但它没有起作用。以下是我的代码：tdata.withColumn("A...

pythonapache-sparkdataframepysparkapache-spark-sql

71得票5回答

使用Spark DataFrames如何查询JSON数据列？

我有一个Cassandra表格，为了简单起见，它看起来像这样：key: text jsonData: text blobData: blob 我可以使用Spark和spark-cassandra-connector创建一个基本的数据框，方法如下：val df = sqlContext.read...

dataframeapache-sparkapache-spark-sqlcassandraspark-cassandra-connector

70得票2回答

使用Spark 1.4.0和Tachyon 0.6.4时，使用OFF_HEAP存储出现错误。

我正在尝试使用离堆存储在Spark 1.4.0和Tachyon 0.6.4上持久化我的RDD，方法如下：val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OF...

apache-sparkapache-spark-sqlalluxio

70得票3回答

将一个Spark DataFrame转换为pandas DataFrame。

有没有一种方法可以将Spark DataFrame（而不是RDD）转换为pandas DataFrame？我尝试了以下方法：var some_df = Seq( ("A", "no"), ("B", "yes"), ("B", "yes"), ("B", "no") ).toD...

pandasapache-sparkapache-spark-sql

70得票6回答

在pyspark中检索DataFrame每个组的前n个

在pyspark中有一个DataFrame，数据如下：user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2...

pythonapache-sparkdataframepysparkapache-spark-sql

70得票4回答

如何使用PySpark将向量拆分为列

背景：我有一个包含两列：单词和向量的DataFrame。其中"vector"列的数据类型为VectorUDT。示例：word | vector assert | [435,323,324,212...] 我希望你能将其翻译成中文：word | v1 | v2 | v3 |...

pythonapache-sparkpysparkapache-spark-sqlapache-spark-ml

70得票3回答

df.repartition和DataFrameWriter partitionBy的区别是什么？

DataFrame.repartition()和DataFrameWriter.partitionBy()方法有什么区别？我希望两者都可以基于数据框列进行分区？还是说它们之间有区别？

apache-spark-sqldata-partitioning

70得票2回答

使用Spark加载数据并将文件名添加为数据框列

我正在使用一个包装函数将一些数据加载到Spark中： def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\...

apache-sparkpysparkapache-spark-sql