340得票14回答
Spark中DataFrame、Dataset和RDD的区别

我想知道在Apache Spark中,RDD和DataFrame (Spark 2.0.0 DataFrame是一个Dataset [Row]的类型别名)之间有什么区别? 你能够将一个转换为另一个吗?

330得票25回答
如何在PySpark中更改数据框列名?

我来自pandas背景,习惯于从CSV文件中读取数据到数据框并通过简单的命令将列名更改为有用的内容: df.columns = new_column_name_list 然而,使用sqlContext创建的PySpark数据框不适用于相同的方法。 我能想到的唯一解决办法如下: df =...

214得票15回答
在pyspark数据框中显示不同的列值

使用pyspark dataframe,如何执行与Pandas中的df ['col'] .unique()等效的操作? 我想列出pyspark dataframe列中所有唯一的值。 不使用SQL(注册模板,然后对不同值进行SQL查询)。 也不需要groupby然后使用countDisti...

207得票4回答
如何在Spark DataFrame中添加一个常量列?

我想在DataFrame中添加一列固定值(每行都相同)。当我使用withColumn时,会出现错误,具体如下:dt.withColumn('new_column', 10).head(5) ----------------------------------------------------...

195得票10回答
如何选择每个组的第一行?

我有一个按照以下方式生成的DataFrame:df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 结果看起来像:+---...

183得票11回答
如何使用PySpark向Spark DataFrame添加新列?

我有一个使用PySpark 1.5.1的Spark DataFrame,并且想要添加一个新列。我尝试了以下方法,但都没有成功:type(randomed_hours) # => list # Create in Python and transform to RDD new_col ...

182得票18回答
在Apache Spark DataFrame中连接列

我们如何在Apache Spark DataFrame中连接两个列?Spark SQL中有没有可用的函数?

181得票23回答
如何在Spark SQL的DataFrame中更改列类型?

假设我正在做这样的事情:val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- y...

179得票6回答
如何在Spark SQL中按列降序排序?

我尝试了 df.orderBy("col1").show(10) 但是它按升序排序。 df.sort("col1").show(10) 也按升序排序。我在stackoverflow上查找答案,但发现所有答案都过时了或者只适用于RDD。我想使用Spark中...

177得票12回答
使用Pyspark过滤包含None值的数据框列

我正在尝试过滤一个 PySpark 数据框,其中包含 None 作为行值:df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_m...