174得票11回答
将 Spark DataFrame 列转换为 Python 列表

我在处理一个包含两列mvv和count的数据框。+---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | 我希望获得两个列表,分别包含MVV值和计数值。就像这样:mvv = [1,2,...

168得票18回答
如何检查 Spark DataFrame 是否为空?

现在,我必须使用 df.count > 0 来检查 DataFrame 是否为空。但这种方法有点低效。是否有更好的方法来解决这个问题呢? 附注:我想要检查它是否为空,以便只在其不为空时保存 DataFrame

165得票14回答
Spark - 如何将 CSV 文件加载为 DataFrame?

我希望在Spark中读取CSV文件并将其转换为DataFrame,然后使用df.registerTempTable("table_name")命令将其存储在HDFS中。 我已经尝试过:scala> val df = sqlContext.load("hdfs:///csv/file/d...

158得票9回答
如何在Pyspark DataFrame中删除列

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), ...

157得票7回答
如何在PySpark中将数据框的字符串类型列更改为双精度类型?

我有一个列为字符串的数据框。 我想在PySpark中将列类型更改为Double类型。 以下是我所做的方法:toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColum...

155得票12回答
如何在Spark中将RDD对象转换为DataFrame

我该如何将一个RDD(org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为一个Dataframe(org.apache.spark.sql.DataFrame)?我使用.rdd将Dataframe转换为RDD,处理后我希望将其转换回Dat...

149得票12回答
Spark Dataframe 区分具有重复名称的列

据我所知,在Spark Dataframe中,多个列可以具有相同的名称,如下面的数据框快照所示:[ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVect...

145得票5回答
如何定义DataFrame的分区?

我开始使用Spark 1.4.0中的Spark SQL和DataFrames。我想在Scala中为DataFrames定义自定义分区器,但不知道如何实现。 我正在处理的数据表之一包含类似于以下示例的按帐户分类的交易列表。Account Date Type Amoun...

141得票8回答
在PySpark中按降序排序

我正在使用 PySpark(Python 2.7.9 / Spark 1.3.1),有一个名为 GroupObject 的数据框需要进行筛选并按降序排序。尝试通过以下代码实现。group_by_dataframe.count().filter("`count` >= 10&qu...

133得票13回答
获取Spark DataFrame列中的最大值的最佳方法

我正在尝试找出在Spark数据框列中获取最大值的最佳方法。 考虑以下示例:df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() 它会创建:+---+---+ | A| B| +--...