在Python中使用向量化解决方案计算最大回撤

Question

在Python中使用向量化解决方案计算最大回撤

17

最大回撤是量化金融中常用的风险指标，用于评估经历过的最大负回报。

最近，我对使用循环方法计算最大回撤所需的时间感到不耐烦。

def max_dd_loop(returns):
    """returns is assumed to be a pandas series"""
    max_so_far = None
    start, end = None, None
    r = returns.add(1).cumprod()
    for r_start in r.index:
        for r_end in r.index:
            if r_start < r_end:
                current = r.ix[r_end] / r.ix[r_start] - 1
                if (max_so_far is None) or (current < max_so_far):
                    max_so_far = current
                    start, end = r_start, r_end
    return max_so_far, start, end

我熟悉一般观念，即矢量化的解决方案会更好。

问题是:

我能将此问题矢量化吗？
这个解决方案是什么样子的？
它有多大的益处？

编辑

我将Alexander的答案修改为以下函数:

def max_dd(returns):
    """Assumes returns is a pandas Series"""
    r = returns.add(1).cumprod()
    dd = r.div(r.cummax()).sub(1)
    mdd = dd.min()
    end = dd.argmin()
    start = r.loc[:end].argmax()
    return mdd, start, end

- piRSquared

请查看以下问题和答案，看是否有帮助：https://dev59.com/MmEi5IYBdhLWcg3wq91D - Warren Weckesser

请参见https://dev59.com/FWEh5IYBdhLWcg3wRRqh（可能是重复的吗？） - Warren Weckesser

1

迟来了，但我认为 r.loc[:end].argmax() 在这里会出问题。你需要使用 r.loc[:end].sort_index(ascending=False).argmax()。如果你的序列中有多个零（即多个高水位标记），当前行将返回第一个而不是最后一个出现的零，并产生一个太早的开始日期。 - Brad Solomon

@BradSolomon，除非我漏掉了什么，如果存在多个相同的高水位线，则对于最大回撤期的确定存在解释上的差异。此外，这不会影响收益率的计算。 - piRSquared

假设你有一个下降的序列（不是回报序列）[0, 0, -2, 0, -3, -5]，它是由一年中前6个月组成的。在-5下降期之前的高水位标记是第三个0（4月），而不是第一个0，因此如果不使用.sort_index(ascending=False)来反转序列，则会错误地告诉您您的下降始于1月。我想这是解释问题，但按照这种方法，每次下降都会从第0个或第1个月开始吗？我从未见过将起始日期描述为这样。HWMs不必完全相同才能在您的下降序列中获得多个零。 - Brad Solomon

@piRSquared 函数argmin和argmax现在已经被弃用了... FutureWarning: 'argmax'已经被弃用。请使用'idxmax'代替。'argmax'的行为将来会被更正，以返回位置最大值。现在使用'series.values.argmax'获取最大值的位置。你是如何解决这个问题的？ - Melroy van den Berg

4个回答

4

我最初建议使用.expanding()窗口，但显然，在使用内置的.cumprod()和.cummax()计算任意给定点的最大回撤时，这是不必要的：

df = pd.DataFrame(data={'returns': np.random.normal(0.001, 0.05, 1000)}, index=pd.date_range(start=date(2016,1,1), periods=1000, freq='D'))

df = pd.DataFrame(data={'returns': np.random.normal(0.001, 0.05, 1000)},
                  index=pd.date_range(start=date(2016, 1, 1), periods=1000, freq='D'))
df['cumulative_return'] = df.returns.add(1).cumprod().subtract(1)
df['max_drawdown'] = df.cumulative_return.add(1).div(df.cumulative_return.cummax().add(1)).subtract(1)

            returns  cumulative_return  max_drawdown
2016-01-01 -0.014522          -0.014522      0.000000
2016-01-02 -0.022769          -0.036960     -0.022769
2016-01-03  0.026735          -0.011214      0.000000
2016-01-04  0.054129           0.042308      0.000000
2016-01-05 -0.017562           0.024004     -0.017562
2016-01-06  0.055254           0.080584      0.000000
2016-01-07  0.023135           0.105583      0.000000
2016-01-08 -0.072624           0.025291     -0.072624
2016-01-09 -0.055799          -0.031919     -0.124371
2016-01-10  0.129059           0.093020     -0.011363
2016-01-11  0.056123           0.154364      0.000000
2016-01-12  0.028213           0.186932      0.000000
2016-01-13  0.026914           0.218878      0.000000
2016-01-14 -0.009160           0.207713     -0.009160
2016-01-15 -0.017245           0.186886     -0.026247
2016-01-16  0.003357           0.190869     -0.022979
2016-01-17 -0.009284           0.179813     -0.032050
2016-01-18 -0.027361           0.147533     -0.058533
2016-01-19 -0.058118           0.080841     -0.113250
2016-01-20 -0.049893           0.026914     -0.157492
2016-01-21 -0.013382           0.013173     -0.168766
2016-01-22 -0.020350          -0.007445     -0.185681
2016-01-23 -0.085842          -0.092648     -0.255584
2016-01-24  0.022406          -0.072318     -0.238905
2016-01-25  0.044079          -0.031426     -0.205356
2016-01-26  0.045782           0.012917     -0.168976
2016-01-27 -0.018443          -0.005764     -0.184302
2016-01-28  0.021461           0.015573     -0.166797
2016-01-29 -0.062436          -0.047836     -0.218819
2016-01-30 -0.013274          -0.060475     -0.229189
...              ...                ...           ...
2018-08-28  0.002124           0.559122     -0.478738
2018-08-29 -0.080303           0.433921     -0.520597
2018-08-30 -0.009798           0.419871     -0.525294
2018-08-31 -0.050365           0.348359     -0.549203
2018-09-01  0.080299           0.456631     -0.513004
2018-09-02  0.013601           0.476443     -0.506381
2018-09-03 -0.009678           0.462153     -0.511158
2018-09-04 -0.026805           0.422960     -0.524262
2018-09-05  0.040832           0.481062     -0.504836
2018-09-06 -0.035492           0.428496     -0.522411
2018-09-07 -0.011206           0.412489     -0.527762
2018-09-08  0.069765           0.511031     -0.494817
2018-09-09  0.049546           0.585896     -0.469787
2018-09-10 -0.060201           0.490423     -0.501707
2018-09-11 -0.018913           0.462235     -0.511131
2018-09-12 -0.094803           0.323611     -0.557477
2018-09-13  0.025736           0.357675     -0.546088
2018-09-14 -0.049468           0.290514     -0.568542
2018-09-15  0.018146           0.313932     -0.560713
2018-09-16 -0.034118           0.269104     -0.575700
2018-09-17  0.012191           0.284576     -0.570527
2018-09-18 -0.014888           0.265451     -0.576921
2018-09-19  0.041180           0.317562     -0.559499
2018-09-20  0.001988           0.320182     -0.558623
2018-09-21 -0.092268           0.198372     -0.599348
2018-09-22 -0.015386           0.179933     -0.605513
2018-09-23 -0.021231           0.154883     -0.613888
2018-09-24 -0.023536           0.127701     -0.622976
2018-09-25  0.030160           0.161712     -0.611605
2018-09-26  0.025528           0.191368     -0.601690

- Stefan

2

给定一组收益时间序列，我们需要评估从起始点到结束点的每个组合的总收益。

第一个技巧是将收益时间序列转换为收益指数序列。给定一组收益指数，我可以使用开始处的收益指数ri_0和结束处的收益指数ri_1计算任何子期间的收益。计算公式为：ri_1 / ri_0 - 1。

第二个技巧是生成第二组收益指数的倒数序列。如果r是我的收益指数序列，则1 / r是我的倒数序列。

第三个技巧是取r * (1 / r).Transpose的矩阵乘积。

r是一个n x 1矩阵。(1 / r).Transpose是一个1 x n矩阵。得到的乘积包含ri_j / ri_k的每个组合。只需减去1，我就得到了实际的收益。

第四个技巧是确保我将分母限制为代表比分子早的时期。

以下是我的向量化函数。

import numpy as np
import pandas as pd

def max_dd(returns):
    # make into a DataFrame so that it is a 2-dimensional
    # matrix such that I can perform an nx1 by 1xn matrix
    # multiplication and end up with an nxn matrix
    r = pd.DataFrame(returns).add(1).cumprod()

    # I copy r.T to ensure r's index is not the same
    # object as 1 / r.T's columns object
    x = r.dot(1 / r.T.copy()) - 1
    x.columns.name, x.index.name = 'start', 'end'

    # let's make sure we only calculate a return when start
    # is less than end.
    y = x.stack().reset_index()
    y = y[y.start < y.end]

    # my choice is to return the periods and the actual max
    # draw down
    z = y.set_index(['start', 'end']).iloc[:, 0]
    return z.min(), z.argmin()[0], z.argmin()[1]

这个表现如何？

对于向量化解决方案，我在时间序列长度为[10、50、100、150、200]的情况下运行了10次迭代。所花费的时间如下：

10:   0.032 seconds
50:   0.044 seconds
100:  0.055 seconds
150:  0.082 seconds
200:  0.047 seconds

相同的循环解决方案测试如下：

10:   0.153 seconds
50:   3.169 seconds
100: 12.355 seconds
150: 27.756 seconds
200: 49.726 seconds

编辑

Alexander的答案提供了更优秀的结果。使用修改后的代码进行相同测试。

10:   0.000 seconds
50:   0.000 seconds
100:  0.004 seconds
150:  0.007 seconds
200:  0.008 seconds

我将他的代码修改为以下函数：

def max_dd(returns):
    r = returns.add(1).cumprod()
    dd = r.div(r.cummax()).sub(1)
    mdd = drawdown.min()
    end = drawdown.argmin()
    start = r.loc[:end].argmax()
    return mdd, start, end

- piRSquared

0

最近我遇到了类似的问题，但与全局MDD不同，我需要找到每个峰值后的区间的MDD。此外，在我的情况下，我应该独立地考虑每个策略的MDD，因此不需要应用cumprod。我的向量化实现也基于Investopedia。

def calc_MDD(networth):
  df = pd.Series(networth, name="nw").to_frame()

  max_peaks_idx = df.nw.expanding(min_periods=1).apply(lambda x: x.argmax()).fillna(0).astype(int)
  df['max_peaks_idx'] = pd.Series(max_peaks_idx).to_frame()

  nw_peaks = pd.Series(df.nw.iloc[max_peaks_idx.values].values, index=df.nw.index)

  df['dd'] = ((df.nw-nw_peaks)/nw_peaks)
  df['mdd'] = df.groupby('max_peaks_idx').dd.apply(lambda x: x.expanding(min_periods=1).apply(lambda y: y.min())).fillna(0)

  return df

运行此代码后，这是一个示例：

        nw      max_peaks_idx       dd          mdd
0   10000.000       0           0.000000    0.000000
1   9696.948        0           -0.030305   -0.030305
2   9538.576        0           -0.046142   -0.046142
3   9303.953        0           -0.069605   -0.069605
4   9247.259        0           -0.075274   -0.075274
5   9421.519        0           -0.057848   -0.075274
6   9315.938        0           -0.068406   -0.075274
7   9235.775        0           -0.076423   -0.076423
8   9091.121        0           -0.090888   -0.090888
9   9033.532        0           -0.096647   -0.096647
10  8947.504        0           -0.105250   -0.105250
11  8841.551        0           -0.115845   -0.115845

这里是应用于完整数据集的完整图像。

尽管向量化，但这段代码可能比其他代码慢，因为对于每个时间序列，应该有许多峰值，每个峰值都需要计算，因此是O(n_peaks*n_intervals)。

附注：我本可以消除dd和mdd列中的零值，但我发现这些值有助于指示时间序列中观察到新峰值的时间。

- xicocaio

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alexander · Accepted Answer

24

df_returns被假定为一个收益率数据框，其中每一列代表一个独立的策略/管理者/证券，每一行代表一个新的日期（例如每月或每日）。

cum_returns = (1 + df_returns).cumprod()
drawdown =  1 - cum_returns.div(cum_returns.cummax())

- Alexander

谢谢Alexander！这比我给出的答案快多了。我对cummax()方法一无所知。我需要稍微修改一下代码来返回起始点和结束点，但这正是我想要的。 - piRSquared

这个例子没有正确考虑到系列中的第一个回报。在这个例子中，高水位应该是1而不是0.9。

df_returns = pd.Series([-.1,-.1,-.1,-.1]) cum_returns = (1 + df_returns).cumprod() drawdown = 1 - cum_returns.div(cum_returns.cummax()) ) print(cum_returns.cummax()) print(drawdown.max())

输出结果为：0 0.9 1 0.9 2 0.9 3 0.9 4 0.9 dtype: float64 0.18999999999999995。 - Pilgrim

1

@Pilgrim，你的观察似乎是正确的。在初始投资日期上需要包含零回报，例如 df_returns = pd.concat([pd.Series(0, index=[{initial_investment_date}]), df_returns])。这可能已经被假定在最初的问题中，但由于没有样本数据，所以无法确定。 - Alexander