在Scala Spark数据框中,是否有 df.filter($"column" === lit("value")).take(101).lastOption.getOrElse(Seq.fill(df.columns.length)("null")).apply(colIndex)
的替代方法?我想要从Spark数据框的某一列中选择特定的行。
例如,在上面的R等效代码中选择第100
行。
在Scala Spark数据框中,是否有 df.filter($"column" === lit("value")).take(101).lastOption.getOrElse(Seq.fill(df.columns.length)("null")).apply(colIndex)
的替代方法?我想要从Spark数据框的某一列中选择特定的行。
例如,在上面的R等效代码中选择第100
行。
DataFrames
是分布式的,这意味着您不能以典型的过程式方式访问它们,您必须先进行分析。虽然您在询问关于Scala
的问题,但我建议您阅读Pyspark文档,因为它比其他任何文档都有更多的示例。RDD
API方法,因为所有DataFrame
都有一个RDD
属性。请看下面的示例,并注意如何获取第二行记录。df = sqlContext.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])
myIndex = 1
values = (df.rdd.zipWithIndex()
.filter(lambda ((l, v), i): i == myIndex)
.map(lambda ((l,v), i): (l, v))
.collect())
print(values[0])
# (u'b', 2)
希望有人提供更简单的解决方案。这就是我在Scala中实现同样功能的方法。我不确定它是否比正确答案更高效,但它需要编写的代码更少。
val parquetFileDF = sqlContext.read.parquet("myParquetFule.parquet")
val myRow7th = parquetFileDF.rdd.take(7).last
df.collect()[n]
其中df
是DataFrame对象,n
是所需的行。 获取该行后,您可以使用以下代码row.myColumn
或row["myColumn"]
来获取内容,如API文档中所述。
getrows()
函数应该会获取你想要的特定行。# Create SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('scratch').getOrCreate()
# Create the dataframe
df = spark.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])
# Function to get rows at `rownums`
def getrows(df, rownums=None):
return df.rdd.zipWithIndex().filter(lambda x: x[1] in rownums).map(lambda x: x[0])
# Get rows at positions 0 and 2.
getrows(df, rownums=[0, 2]).collect()
# Output:
#> [(Row(letter='a', name=1)), (Row(letter='c', name=3))]
这个在PySpark里对我有效。
df.select("column").collect()[0][0]
如果您的工作机器内存足够,可以使用 Scala 方法:
val arr = df.select("column").rdd.collect
println(arr(100))
如果数据框架的模式未知,而您知道"column"
字段的实际类型(例如double),则可以按照以下方式获取arr
:
val arr = df.select($"column".cast("Double")).as[Double].rdd.collect
最初的回答
val arr = df.select("column").collect()(99)
当您想从数据框中获取日期列的最大值时,只需获取该值而不是对象类型或行对象信息,可以参考以下代码。
表格名称为"mytable"
max_date = df.select(max('date_col')).first()[0]
2020-06-26
而不是 Row(max(reference_week)=datetime.date(2020, 6, 26))
import static org.apache.spark.sql.functions.*;
..
ds = ds.withColumn("rownum", functions.monotonically_increasing_id());
ds = ds.filter(col("rownum").equalTo(99));
ds = ds.drop("rownum");
注意:monotonically_increasing_id从0开始;
monotonically_increasing_id
- 生成的ID保证单调递增且唯一,但不是连续的。 - Gowrav