按日期对Spark DataFrame进行分组

27

我从 SQLServer 表中加载了一个 DataFrame。它看起来像这样:

>>> df.show()
+--------------------+----------+
|           timestamp|    Value |
+--------------------+----------+
|2015-12-02 00:10:...|     652.8|
|2015-12-02 00:20:...|     518.4|
|2015-12-02 00:30:...|     524.6|
|2015-12-02 00:40:...|     382.9|
|2015-12-02 00:50:...|     461.6|
|2015-12-02 01:00:...|     476.6|
|2015-12-02 01:10:...|     472.6|
|2015-12-02 01:20:...|     353.0|
|2015-12-02 01:30:...|     407.9|
|2015-12-02 01:40:...|     475.9|
|2015-12-02 01:50:...|     513.2|
|2015-12-02 02:00:...|     569.0|
|2015-12-02 02:10:...|     711.4|
|2015-12-02 02:20:...|     457.6|
|2015-12-02 02:30:...|     392.0|
|2015-12-02 02:40:...|     459.5|
|2015-12-02 02:50:...|     560.2|
|2015-12-02 03:00:...|     252.9|
|2015-12-02 03:10:...|     228.7|
|2015-12-02 03:20:...|     312.2|
+--------------------+----------+
现在我想按小时(或天、月等)分组(和求和)值,但是我真的不知道应该如何做。 这是我加载数据框的方式。虽然我有一种感觉这不是正确的方式:
query = """
SELECT column1 AS timestamp, column2 AS value
FROM table
WHERE  blahblah
"""

sc = SparkContext("local", 'test')
sqlctx = SQLContext(sc)

df = sqlctx.load(source="jdbc",
                 url="jdbc:sqlserver://<CONNECTION_DATA>",
                 dbtable="(%s) AS alias" % query)

可以吗?

3个回答

42

自1.5.0版本以来,Spark提供了许多函数,如dayofmonthhourmonthyear,可以对日期和时间戳进行操作。因此,如果timestampTimestampType,您只需要正确的表达式即可。例如:

from pyspark.sql.functions import hour, mean

(df
    .groupBy(hour("timestamp").alias("hour"))
    .agg(mean("value").alias("mean"))
    .show())

## +----+------------------+
## |hour|              mean|
## +----+------------------+
## |   0|508.05999999999995|
## |   1| 449.8666666666666|
## |   2| 524.9499999999999|
## |   3|264.59999999999997|
## +----+------------------+

如果版本在1.5.0之前,最好的选择是使用HiveContext和Hive UDFs来配合使用selectExpr

df.selectExpr("year(timestamp) AS year", "value").groupBy("year").sum()

## +----+---------+----------+   
## |year|SUM(year)|SUM(value)|
## +----+---------+----------+
## |2015|    40300|    9183.0|
## +----+---------+----------+

或原始SQL:

df.registerTempTable("df")

sqlContext.sql("""
    SELECT MONTH(timestamp) AS month, SUM(value) AS values_sum
    FROM df
    GROUP BY MONTH(timestamp)""")

请记住,聚合是由Spark执行而不是推送到外部源。通常这是期望的行为,但在某些情况下,您可能更喜欢将聚合作为子查询执行以限制数据传输。


有月份的功能吗? - Kalpish Singhal

11
此外,您可以使用date_format创建任何您想要的时间段。 按特定日期分组:

from pyspark.sql import functions as F

df.select(F.date_format('timestamp','yyyy-MM-dd').alias('day')).groupby('day').count().show()

按指定月份进行分组(只需更改格式):

df.select(F.date_format('timestamp','yyyy-MM').alias('month')).groupby('month').count().show()


0

对于 pyspark >= 2.2:

from pyspark.sql.functions import to_date

df.groupBy(to_date('created_time').al)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接