81得票3回答
从Spark DataFrame中获取n行数据并传递给toPandas()函数

我有这段代码:l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).toPandas() 功...

80得票8回答
在PySpark的groupBy中,中位数/分位数。

我希望在一个Spark dataframe上(使用PySpark)计算组分位数。无论是精确的还是近似的结果都可以。我希望找到一个解决方案,可以在groupBy / agg的上下文中使用,以便可以将其与其他PySpark聚合函数混合使用。如果由于某些原因不可能,请提供另一种方法。与此相关的问题没...

79得票3回答
使用复杂类型查询Spark SQL DataFrame

我如何查询包含复杂类型(如maps/arrays)的RDD?例如,当我编写以下测试代码时:case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -&g...

79得票12回答
使用 withColumnRenamed 重命名多列

```我想使用spark的withColumnRenamed函数更改两个列的名称。当然,我可以这样写:```data = sqlContext.createDataFrame([(1,2), (3,4)], ['x1', 'x2']) data = (data .withColu...

79得票4回答
在PySpark中,当值匹配字符串的一部分时,过滤数据框。

我有一个大型的pyspark.sql.dataframe.DataFrame,我想保留(使用filter)所有在location列保存的URL包含预定字符串的行,例如'google.com'。 我已经尝试过:import pyspark.sql.functions as sf df.filte...

77得票15回答
如何在Spark数据框中展开结构体?

我有一个具有以下结构的数据框: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- ...

77得票5回答
为什么连接失败并显示“java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]”错误信息?

我正在使用Spark 1.5。我有两个数据框的形式:scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> ...

77得票3回答
如何将数组(即列表)列转换为向量

问题简述!考虑以下代码片段(假设spark已经设置为某个SparkSession):from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), ...

76得票2回答
PySpark:如何对特定列的数据框中的缺失值进行填充?

我有以下样本数据框:a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 | 我想仅替换前两列 - 列“a”和“b”的空值: a | b | c | 1 | ...

74得票4回答
Pyspark:根据多个条件过滤数据框架

我希望根据以下条件首先筛选数据框(d<5),其次如果col1的值等于col3中的对应值,则col2的值不等于col4中的对应值。 如果原始数据框DF如下:+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+---...