得票数最多 'apache-spark-sql' 问题 - 第2页

关联标签

174得票11回答

将 Spark DataFrame 列转换为 Python 列表

我在处理一个包含两列mvv和count的数据框。+---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | 我希望获得两个列表，分别包含MVV值和计数值。就像这样：mvv = [1,2,...

pythonapache-sparkpysparkapache-spark-sql

168得票18回答

如何检查 Spark DataFrame 是否为空？

现在，我必须使用 df.count > 0 来检查 DataFrame 是否为空。但这种方法有点低效。是否有更好的方法来解决这个问题呢？附注：我想要检查它是否为空，以便只在其不为空时保存 DataFrame

apache-sparkpysparkapache-spark-sql

165得票14回答

Spark - 如何将 CSV 文件加载为 DataFrame？

我希望在Spark中读取CSV文件并将其转换为DataFrame，然后使用df.registerTempTable("table_name")命令将其存储在HDFS中。我已经尝试过：scala> val df = sqlContext.load("hdfs:///csv/file/d...

scalaapache-sparkhadoopapache-spark-sqlhdfs

158得票9回答

如何在Pyspark DataFrame中删除列

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), ...

apache-sparkapache-spark-sqlpyspark

157得票7回答

如何在PySpark中将数据框的字符串类型列更改为双精度类型？

我有一个列为字符串的数据框。我想在PySpark中将列类型更改为Double类型。以下是我所做的方法：toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColum...

pythonapache-sparkdataframepysparkapache-spark-sql

155得票12回答

如何在Spark中将RDD对象转换为DataFrame

我该如何将一个RDD（org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]）转换为一个Dataframe（org.apache.spark.sql.DataFrame）？我使用.rdd将Dataframe转换为RDD，处理后我希望将其转换回Dat...

scalaapache-sparkapache-spark-sqlrdd

149得票12回答

Spark Dataframe 区分具有重复名称的列

据我所知，在Spark Dataframe中，多个列可以具有相同的名称，如下面的数据框快照所示：[ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVect...

pythonapache-sparkdataframepysparkapache-spark-sql

145得票5回答

如何定义DataFrame的分区？

我开始使用Spark 1.4.0中的Spark SQL和DataFrames。我想在Scala中为DataFrames定义自定义分区器，但不知道如何实现。我正在处理的数据表之一包含类似于以下示例的按帐户分类的交易列表。Account Date Type Amoun...

scalaapache-sparkdataframeapache-spark-sqlpartitioning

141得票8回答

在PySpark中按降序排序

我正在使用 PySpark（Python 2.7.9 / Spark 1.3.1），有一个名为 GroupObject 的数据框需要进行筛选并按降序排序。尝试通过以下代码实现。group_by_dataframe.count().filter("`count` >= 10&qu...

pythonapache-sparkdataframepysparkapache-spark-sql

133得票13回答

获取Spark DataFrame列中的最大值的最佳方法

我正在尝试找出在Spark数据框列中获取最大值的最佳方法。考虑以下示例：df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() 它会创建：+---+---+ | A| B| +--...

pythonapache-sparkpysparkapache-spark-sql