Matplotlib简单案例中使用pandas可能出现内存泄漏问题。

6

我需要在循环中使用不同的数据来绘制和保存绘图,但是由于Matplotlib存在内存泄漏的问题,导致程序出现问题。

请问有没有人对此有解决办法?

以下是一个简单的代码示例:

import sys
import gc
import numpy as np
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import pandas as pd

pdindex = pd.date_range(start='01/01/2013', freq='15min', end='01/01/2019')
df = pd.DataFrame({'test':np.random.normal(0,1,len(pdindex))}, index=pdindex)


def memplot_plot(df, i):
    df.test.plot()    
    plt.title('graph' + str(i))
    plt.savefig(str(i) + '.png', dpi=144)
    plt.close() 

for i in range(1, 100):
    print '*******************************'
    print 'i : ' + str(i)    
    print  len( gc.get_objects())
    print sys.getsizeof(gc.get_objects())
    memplot_plot(df, i)    
    gc.collect()

输出结果为(i=6 时出现内存错误):

*******************************
i : 1
74682
325680
*******************************
i : 2
290627
1190248
*******************************
i : 3
506420
2145012
*******************************
i : 4
721993
3054204
*******************************
i : 5
937566
3865524
*******************************
i : 6
1153139
4892352
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Anaconda\lib\site- packages\spyderlib\widgets\externalshell\sitecustomize.py",    line 580, in runfile
    execfile(filename, namespace)
  File "C:/PERSO/script_backtesting.py", line 124, in <module>
    memplot_plot(df, i)    
  File "C:/PERSO/script_backtesting.py", line 107, in memplot_plot
    plt.savefig(str(i) + '.png', dpi=144)
  File "C:\Anaconda\lib\site-packages\matplotlib\pyplot.py", line 576, in savefig
    res = fig.savefig(*args, **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\figure.py", line 1470, in savefig
    self.canvas.print_figure(*args, **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\backend_bases.py", line 2192, in     print_figure
    **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\backends\backend_agg.py", line 513, in  print_png
    FigureCanvasAgg.draw(self)
  File "C:\Anaconda\lib\site-packages\matplotlib\backends\backend_agg.py", line 461, in     draw
    self.figure.draw(self.renderer)
  File "C:\Anaconda\lib\site-packages\matplotlib\artist.py", line 59, in draw_wrapper
    draw(artist, renderer, *args, **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\figure.py", line 1079, in draw
    func(*args)
  File "C:\Anaconda\lib\site-packages\matplotlib\artist.py", line 59, in draw_wrapper
    draw(artist, renderer, *args, **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\axes\_base.py", line 2092, in draw
    a.draw(renderer)
  File "C:\Anaconda\lib\site-packages\matplotlib\artist.py", line 59, in draw_wrapper
    draw(artist, renderer, *args, **kwargs)
  File "C:\Anaconda\lib\site-packages\matplotlib\axis.py", line 1103, in draw
    ticks_to_draw = self._update_ticks(renderer)
  File "C:\Anaconda\lib\site-packages\matplotlib\axis.py", line 957, in _update_ticks
    tick_tups = [t for t in self.iter_ticks()]
  File "C:\Anaconda\lib\site-packages\matplotlib\axis.py", line 903, in iter_ticks
    self.major.formatter.set_locs(majorLocs)
  File "C:\Anaconda\lib\site-packages\pandas\tseries\converter.py", line 982, in  set_locs
    self._set_default_format(vmin, vmax)
  File "C:\Anaconda\lib\site-packages\pandas\tseries\converter.py", line 966, in  _set_default_format
    format = np.compress(info['maj'], info)
  File "C:\Anaconda\lib\site-packages\numpy\core\fromnumeric.py", line 1563, in  compress
   return compress(condition, axis, out)
MemoryError

从启动脚本到断开和关闭控制台的过程中,计算机内存使用情况的图表如下: enter image description here


我能够在Windows 7 64位、pandas 0.15.1和matplotlib 1.4.0上重现这个问题。如果您重新配置绘图,设置一个单独的图形和轴并将其传递到绘图中(df.test.plot(ax=ax)),而不是执行plt.close(),只需执行轴清除ax.cla(),内存仍会慢慢增加,但不会像之前那样快。除此之外,我不确定发生了什么。 - Ajean
4
这个问题似乎不适合本论坛,因为它是一个漏洞报告。您应该向相应的matplotlib或pandas机构提交漏洞报告。 - Paul H
1
在这种情况下,这确实是一个与您的代码无关的内存泄漏问题,因此我建议采纳@PaulH的建议,并向pandas的开发人员提交错误报告(我认为是pandas,因为将df.test.plot()替换为plt.plot(df.index, df.test)至少可以减缓内存泄漏...不确定它是否完全消失。 - Ajean
1
好的,我刚试了一下,我认为使用我评论中的修改最终解决了泄漏问题。 - Ajean
https://github.com/pandas-dev/pandas/issues/9003 - sirex
显示剩余3条评论
1个回答

5

这显然是一个bug。如果这个问题还存在,对代码进行以下修改可以消除我的机器上的内存泄漏:

import sys
import gc
import numpy as np
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import pandas as pd

pdindex = pd.date_range(start='01/01/2013', freq='15min', end='01/01/2019')
df = pd.DataFrame({'test':np.linspace(0,1,len(pdindex))}, index=pdindex)

fig, ax = plt.subplots()

def memplot_plot(df, i, f, a):
    a.plot(df.index, df.test)
    a.set_title('graph' + str(i))
    f.savefig(str(i) + '.png', dpi=144)
    a.cla() 

for i in range(1, 100):
    print '*******************************'
    print 'i : ' + str(i)    
    print  len( gc.get_objects())
    print sys.getsizeof(gc.get_objects())
    memplot_plot(df, i, fig, ax)    
    gc.collect()

输出现在看起来像这样:
...
*******************************
i : 13
83727
732816
*******************************
i : 14
83727
732816
*******************************
i : 15
83727
732816

...etc


它在我的电脑上运行良好!谢谢。所以这是Pandas的一个错误,我会提交的。 - Alexis G

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接