得票数最多 'apache-spark-sql' 问题 - 第7页

关联标签

81得票3回答

从Spark DataFrame中获取n行数据并传递给toPandas()函数

我有这段代码：l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).toPandas() 功...

pythonapache-spark-sql

80得票8回答

在PySpark的groupBy中，中位数/分位数。

我希望在一个Spark dataframe上（使用PySpark）计算组分位数。无论是精确的还是近似的结果都可以。我希望找到一个解决方案，可以在groupBy / agg的上下文中使用，以便可以将其与其他PySpark聚合函数混合使用。如果由于某些原因不可能，请提供另一种方法。与此相关的问题没...

apache-sparkpysparkgroup-byapache-spark-sqlmedian

79得票3回答

使用复杂类型查询Spark SQL DataFrame

我如何查询包含复杂类型（如maps/arrays）的RDD？例如，当我编写以下测试代码时：case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -&g...

sqlscalaapache-sparkdataframeapache-spark-sql

79得票12回答

使用 withColumnRenamed 重命名多列

```我想使用spark的withColumnRenamed函数更改两个列的名称。当然，我可以这样写：```data = sqlContext.createDataFrame([(1,2), (3,4)], ['x1', 'x2']) data = (data .withColu...

apache-sparkpysparkapache-spark-sqlrename

79得票4回答

在PySpark中，当值匹配字符串的一部分时，过滤数据框。

我有一个大型的pyspark.sql.dataframe.DataFrame，我想保留（使用filter）所有在location列保存的URL包含预定字符串的行，例如'google.com'。我已经尝试过：import pyspark.sql.functions as sf df.filte...

pythonapache-sparkpysparkapache-spark-sql

77得票15回答

如何在Spark数据框中展开结构体？

javaapache-sparkpysparkapache-spark-sql

77得票5回答

为什么连接失败并显示“java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]”错误信息？

我正在使用Spark 1.5。我有两个数据框的形式：scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> ...

scalaapache-sparkjoinapache-spark-sql

77得票3回答

如何将数组（即列表）列转换为向量

问题简述！考虑以下代码片段（假设spark已经设置为某个SparkSession）：from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), ...

pythonapache-sparkpysparkapache-spark-sqlapache-spark-ml

76得票2回答

PySpark：如何对特定列的数据框中的缺失值进行填充？

我有以下样本数据框：a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 | 我想仅替换前两列 - 列“a”和“b”的空值： a | b | c | 1 | ...

apache-sparkpysparkapache-spark-sql

74得票4回答

Pyspark：根据多个条件过滤数据框架

我希望根据以下条件首先筛选数据框（d<5），其次如果col1的值等于col3中的对应值，则col2的值不等于col4中的对应值。如果原始数据框DF如下:+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+---...

sqlpysparkfilterapache-spark-sql