我有一个包含组和百分比的数据框。
| Group | A % | B % | Target % |
| ----- | --- | --- | -------- |
| A | .05 | .85 | 1.0 |
| A | .07 | .75 | 1.0 |
| A | .08 | .95 | 1.0 |
| B | .03 | .80 | 1.0 |
| B | .05 | .83 | 1.0 |
| B | .04 | .85 | 1.0 |
我希望能够按照列A%
迭代列Group
,并找到从列B%
中获取的一组值,当与列A%
中的每个值相加时,总和小于或等于列Target %
。
| Group | A % | B % | Target % | SumArray |
| ----- | --- | --- | -------- | ------------ |
| A | .05 | .85 | 1.0 | [.85,.75,.95]|
| A | .07 | .75 | 1.0 | [.85,.75] |
| A | .08 | .95 | 1.0 | [.85,.75] |
| B | .03 | .80 | 1.0 | [.80,.83,.85]|
| B | .05 | .83 | 1.0 | [.80,.83,.85]|
| B | .04 | .85 | 1.0 | [.80,.83,.85]|
我希望能够使用PySpark解决这个问题。你有什么想法吗?