我正在尝试对 pyspark.sql.dataframe
进行以下操作。
from pyspark.sql.functions import sum as spark_sum
df = spark.createDataFrame([
('a', 1.0, 1.0), ('a',1.0, 0.2), ('b', 1.0, 1.0),
('c' ,1.0, 0.5), ('d', 0.55, 1.0),('e', 1.0, 1.0)
])
>>> df.show()
+---+----+---+
| _1| _2| _3|
+---+----+---+
| a| 1.0|1.0|
| a| 1.0|0.2|
| b| 1.0|1.0|
| c| 1.0|0.5|
| d|0.55|1.0|
| e| 1.0|1.0|
+---+----+---+
接下来,我尝试执行以下操作。
1)当列 df[_2]
> df[_3]
时,选择行。
2)对于从上述步骤中选择的每一行,将df[_2] * df[_3]
相乘,然后取它们的总和。
3)将上面得到的结果除以df[_3]
列的总和。
这是我的做法:
>>> filter_df = df.where(df['_2'] > df['_3'])
>>> filter_df.show()
+---+---+---+
| _1| _2| _3|
+---+---+---+
| a|1.0|0.2|
| c|1.0|0.5|
+---+---+---+
>>> result = spark_sum(filter_df['_2'] * filter_df['_3'])
/ spark_sum(filter_df['_3'])
>>> df.select(result).show()
+--------------------------+
|(sum((_2 * _3)) / sum(_3))|
+--------------------------+
| 0.9042553191489361|
+--------------------------+
但正确答案应该是(1.0 * 0.2 + 1.0 * 0.5) / (0.2+0.5) = 1.0。 这不正确。怎么回事? 在我看来,这样的操作只针对原始的
df
进行,而不是filter_df
。什么鬼?
result.show()
呢? - cs95result.show()
时,它给了我以下错误:Traceback (most recent call last): File "", line 1, in
TypeError: 'Column' object is not callable`
- Nygen Patriciadf
标签是Unix命令的名称,并与数据帧无关。 - Caleb