我有一个DataFrame,我正在按
我尝试了以下的方法:
内部得分
和问题日期
(按季度)进行分组。然后,我想创建一个统计表格,其中包括贷款数量的累积计数(由贷款编号
的不同计数表示),贷款金额的累积总和以及实际损失
和未偿本金
的总和。累积总和和累积计数应包括在该特定时间点之前的第一个日期的快照。(即Q1 2015到Q2 2015的累积总和,然后从Q1 2015到Q3 2015,然后从Q1 2015到Q4 2015等)
样本数据集:
Loan # Amount Issue Date TU Status List Internal Score Last Actual Paid \
0 57144 3337.76 2017-04-03 B A 0.0
1 57145 5536.46 2017-04-03 B C 0.0
2 57160 3443.91 2017-04-03 B B 0.0
3 57161 1162.79 2017-04-03 B B 0.0
4 57162 3845.98 2017-04-03 B B 0.0
5 57163 3441.50 2017-04-03 B B 0.0
6 57164 2039.96 2017-04-03 B C 0.0
7 57165 4427.53 2017-04-03 B A 0.0
8 57166 4427.53 2017-04-03 B A 0.0
9 57167 1617.77 2017-04-03 B B 0.0
Outstanding-Principal Actual Loss
0 3337.76 0.0
1 5536.46 0.0
2 3443.91 0.0
3 1162.79 0.0
4 3845.98 0.0
5 3441.50 0.0
6 2039.96 0.0
7 4427.53 0.0
8 4427.53 0.0
9 1617.77 0.0
我尝试了以下的方法:
container = []
for i in ['A', 'B', 'C', 'D']:
subdf = df[df['Internal Score'].str.contains(i)]
# Calculate Quarterly Vintages
subdf.set_index('Issue Date', inplace=True)
df2 = subdf.groupby(pd.TimeGrouper('Q')).agg({'Outstanding-Principal': np.sum, 'Actual Loss': np.sum,
'Amount': cumsum, 'Loan #': cumcount})
df2['Internal Score'] = i
container.append(df2)
ddf = pd.concat(container)