用插值方法填充多级Pandas DataFrame

6

我想使用interpolate方法bfillffill包含NaN(在这种情况下为ImpVol字段)的多索引DataFrame。 数据框的一部分可能如下所示:

Expiration  OptionType  Strike    ImpVol
2014-12-26  call        140.0          NaN
                        145.0          NaN
                        147.0          NaN
                        149.0          NaN
                        150.0          NaN
                        152.5          NaN
                        155.0     0.233631
                        157.5     0.206149
                        160.0     0.149118
                        162.5     0.110867
                        165.0     0.110047
                        167.5          NaN
                        170.0          NaN
                        172.5          NaN
                        175.0          NaN
                        177.5          NaN
                        180.0          NaN
                        187.5          NaN
                        192.5          NaN
            put         132.0          NaN
                        135.0          NaN
                        140.0          NaN
                        141.0          NaN
                        142.0     0.541311
                        143.0          NaN
                        144.0     0.546672
                        145.0     0.504691
                        146.0     0.485586
                        147.0     0.426898
                        148.0     0.418084
                        149.0     0.405254
                        150.0     0.372353
                        152.5     0.311049
                        155.0     0.246892
                        157.5     0.187426
                        160.0     0.132475
                        162.5     0.098377
                        165.0          NaN
                        167.5     0.249519
                        170.0     0.270546
                        180.0          NaN
                        182.5     0.634539
                        185.0     0.656332
                        187.5     0.711593
2015-01-02  call        145.0          NaN
                        146.0          NaN
                        149.0          NaN
                        150.0          NaN
                        152.5          NaN
                        155.0     0.213742
                        157.5     0.205705
                        160.0     0.160824
                        162.5     0.143180
                        165.0     0.129292
                        167.5     0.127415
                        170.0     0.148275
                        172.5          NaN
                        175.0          NaN
                        180.0          NaN
                        182.5          NaN
                        195.0          NaN
            put         135.0     0.493639
                        140.0     0.463828
                        141.0     0.459619
                        142.0     0.442729
                        143.0     0.431823
                        145.0     0.391141
                        147.0     0.313090
                        148.0     0.310796
                        149.0     0.296146
                        150.0     0.280965
                        152.5     0.240727
                        155.0     0.203776
                        157.5     0.175431
                        160.0     0.143198
                        162.5     0.121621
                        165.0     0.105060
                        167.5     0.160085
                        170.0          NaN

如果您对此领域不熟悉,我正在插值缺失(或错误)的隐含期权波动率。这些需要通过到期日和期权类型组合按行权价格进行插值,不能在整个期权群体中进行插值。例如,我必须单独在2014-12-26call期权和put期权之间进行插值。

以前我是选择一段值来插值,类似于这样:

optype = 'call'
expiry = '2014-12-26'

s = df['ImpVol'][expiry][optype].interpolate().ffill().bfill()

但是这个框架可能相当大,我希望避免必须循环遍历每个索引。如果我使用interpolate方法在不选择切片(即在整个框架中)的情况下进行填充,interpolate将会在所有子索引上进行插值计算,这正是我不想要的。例如:

print df['ImpVol'].interpolate().ffill().bfill()

Expiration  OptionType  Strike    ImpVol
2014-12-26  call        140.0     0.233631
                        145.0     0.233631
                        147.0     0.233631
                        149.0     0.233631
                        150.0     0.233631
                        152.5     0.233631
                        155.0     0.233631
                        157.5     0.206149
                        160.0     0.149118
                        162.5     0.110867
                        165.0     0.110047
                        167.5     0.143222
                        170.0     0.176396
                        172.5     0.209570
                        175.0     0.242744
                        177.5     0.275918
                        180.0     0.309092
                        187.5     0.342267
                        192.5     0.375441 <-- interpolates from the 2014-12-26 call...
            put         132.0     0.408615 <-- ... to the 2014-12-26 put, which is bad
                        135.0     0.441789
                        140.0     0.474963
                        141.0     0.508137
                        142.0     0.541311
                        143.0     0.543992
                        144.0     0.546672
                        145.0     0.504691
                        146.0     0.485586
                        147.0     0.426898
                        148.0     0.418084
                        149.0     0.405254
                        150.0     0.372353
                        152.5     0.311049
                        155.0     0.246892
                        157.5     0.187426
                        160.0     0.132475
                        162.5     0.098377
                        165.0     0.173948
                        167.5     0.249519
                        170.0     0.270546
                        180.0     0.452542
                        182.5     0.634539
                        185.0     0.656332
                        187.5     0.711593

那么问题是,如何根据索引填充多重索引数据帧的每个子部分?
1个回答

5

我会尝试在OptionType索引水平上对数据框进行展开操作。

df.unstack(level=1)

这样,您应该获得一个单一索引的数据框,其中呼叫和认购类别都被移到了列中。也许这不是解决问题最优雅的方式,但它应该能解决问题,不会让认购/认沽执行价重叠。

如果多索引数据框是进一步计算的最理想选择,则可以使用堆放方法恢复原始格式。


1
你需要两次取消堆叠才能在列标签中获得日期;如果行权价格按升序排列,跨越日期将没有意义。 - Luciano

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接