Pandas和Matplotlib - fill_between()与datetime64

40

有一个Pandas数据框:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 300 entries, 5220 to 5519
Data columns (total 3 columns):
Date             300 non-null datetime64[ns]
A                300 non-null float64
B                300 non-null float64
dtypes: datetime64[ns](1), float64(2)
memory usage: 30.5 KB

我想绘制A系列和B系列相对于日期的图表。
plt.plot_date(data['Date'], data['A'], '-')
plt.plot_date(data['Date'], data['B'], '-')

然后我想在A和B系列之间的区域上应用fill_between():

plt.fill_between(data['Date'], data['A'], data['B'],
                where=data['A'] >= data['B'],
                facecolor='green', alpha=0.2, interpolate=True)

输出结果为:

TypeError: ufunc 'isfinite' not supported for the input types, and the inputs
could not be safely coerced to any supported types according to the casting 
rule ''safe''
< p >matplotlib的fill_between()函数是否接受pandas datetime64对象?我应该将其转换为不同的日期类型吗?< /p >

这个解决方法适用于 plt 和轴 plt.fill_between( data['Date'].dt.to_pydatetime(), data['A'],...。它将 numpy datetime64[ns] 转换为 fill_between 可以理解的 python datetime。 - jedi
4个回答

37
matplotlib.units.registry中,Pandas注册了一个转换器,将许多日期时间类型(例如pandas DatetimeIndex和dtype为datetime64的numpy数组)转换为matplotlib datenums,但它不能处理dtype为datetime64的Pandas Series
In [67]: import pandas.tseries.converter as converter

In [68]: c = converter.DatetimeConverter()

In [69]: type(c.convert(df['Date'].values, None, None))
Out[69]: numpy.ndarray              # converted (good)

In [70]: type(c.convert(df['Date'], None, None))
Out[70]: pandas.core.series.Series  # left unchanged

fill_between函数会检查并使用转换器处理数据(如果存在)。

因此,为了解决问题,您可以将日期转换为NumPy数组的datetime64类型:

d = data['Date'].values
plt.fill_between(d, data['A'], data['B'],
                where=data['A'] >= data['B'],
                facecolor='green', alpha=0.2, interpolate=True)
例如,
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

N = 300
dates = pd.date_range('2000-1-1', periods=N, freq='D')
x = np.linspace(0, 2*np.pi, N)
data = pd.DataFrame({'A': np.sin(x), 'B': np.cos(x),
               'Date': dates})
plt.plot_date(data['Date'], data['A'], '-')
plt.plot_date(data['Date'], data['B'], '-')

d = data['Date'].values
plt.fill_between(d, data['A'], data['B'],
                where=data['A'] >= data['B'],
                facecolor='green', alpha=0.2, interpolate=True)
plt.xticks(rotation=25)
plt.show()

在此输入图片描述


这个解决方法非常完美 - 非常感谢。这种行为非常奇怪,可能的原因是什么? - chilliq
3
我的第一个建议是使用DatetimIndex,但事实证明这并不必要。更快的方法是直接使用data['Date'].values从Pandas Series中提取底层的NumPy数组。 - unutbu
这非常有帮助,我之前不知道。我相信这个小技巧将解决我在使用Matplotlib绘制数据框时遇到的许多问题。 - chilliq
奇怪的是,这个代码在使用%matplotlib qt时可以运行,但不能使用inline。 - AimForClarity
@unutbu 我有一个类似的问题,我尝试了你的答案,但是出现了KeyError: 'Date'的错误,请问有什么建议吗? - 3kstc

9

正如WillZ所指出的那样,Pandas 0.21破坏了unutbu的解决方法。然而,将日期时间转换为日期可能会对数据分析产生显著的负面影响。这个解决方案目前可以工作并保留日期时间:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

N = 300
dates = pd.date_range('2000-1-1', periods=N, freq='ms')
x = np.linspace(0, 2*np.pi, N)
data = pd.DataFrame({'A': np.sin(x), 'B': np.cos(x),
           'Date': dates})
d = data['Date'].dt.to_pydatetime()
plt.plot_date(d, data['A'], '-')
plt.plot_date(d, data['B'], '-')


plt.fill_between(d, data['A'], data['B'],
            where=data['A'] >= data['B'],
            facecolor='green', alpha=0.2, interpolate=True)
plt.xticks(rotation=25)
plt.show()

使用datetime64限制的fill_between

编辑:根据jedi的评论,我试图确定以下三个选项中最快的方法:

  • method1 = 原始答案
  • method2 = jedi的评论 + 原始答案
  • method3 = jedi的评论

method2稍微快一些,但更加稳定,因此我已编辑上面的答案以反映最佳方法。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import time


N = 300
dates = pd.date_range('2000-1-1', periods=N, freq='ms')
x = np.linspace(0, 2*np.pi, N)
data = pd.DataFrame({'A': np.sin(x), 'B': np.cos(x),
           'Date': dates})
time_data = pd.DataFrame(columns=['1', '2', '3', '4', '5', '6', '7', '8', '9', '10'])
method1 = []
method2 = []
method3 = []
for i in range(0, 10):
    start = time.clock()
    for i in range(0, 500):
        d = [pd.Timestamp(x).to_pydatetime() for x in data['Date']]
        #d = data['Date'].dt.to_pydatetime()
        plt.plot_date(d, data['A'], '-')
        plt.plot_date(d, data['B'], '-')


        plt.fill_between(d, data['A'], data['B'],
            where=data['A'] >= data['B'],
            facecolor='green', alpha=0.2, interpolate=True)
        plt.xticks(rotation=25)
        plt.gcf().clear()
    method1.append(time.clock() - start)

for i  in range(0, 10):
    start = time.clock()
    for i in range(0, 500):
        #d = [pd.Timestamp(x).to_pydatetime() for x in data['Date']]
        d = data['Date'].dt.to_pydatetime()
        plt.plot_date(d, data['A'], '-')
        plt.plot_date(d, data['B'], '-')


        plt.fill_between(d, data['A'], data['B'],
            where=data['A'] >= data['B'],
            facecolor='green', alpha=0.2, interpolate=True)
        plt.xticks(rotation=25)
        plt.gcf().clear()
    method2.append(time.clock() - start)

for i in range(0, 10):
    start = time.clock()
    for i in range(0, 500):
        #d = [pd.Timestamp(x).to_pydatetime() for x in data['Date']]
        #d = data['Date'].dt.to_pydatetime()
        plt.plot_date(data['Date'].dt.to_pydatetime(), data['A'], '-')
        plt.plot_date(data['Date'].dt.to_pydatetime(), data['B'], '-')


        plt.fill_between(data['Date'].dt.to_pydatetime(), data['A'], data['B'],
            where=data['A'] >= data['B'],
            facecolor='green', alpha=0.2, interpolate=True)
        plt.xticks(rotation=25)
        plt.gcf().clear()
    method3.append(time.clock() - start)

time_data.loc['method1'] = method1
time_data.loc['method2'] = method2
time_data.loc['method3'] = method3
print(time_data)
plt.errorbar(time_data.index, time_data.mean(axis=1), yerr=time_data.std(axis=1))

time test of 3 methods on converting time data for plotting a DataFrame


1
这是一个更快、更简单的解决方法 plt.fill_between( data['Date'].dt.to_pydatetime(), ...。它也适用于 axes.fill_between - jedi
@jedi 谢谢你的推荐。我已经根据你的评论编辑了答案。 - TurnipEntropy

4
我升级到Pandas 0.21后遇到了这个问题。 在升级之前,我的代码可以正常运行fill_between(),但在升级后就无法工作了。
事实证明,@unutbu答案中提到的解决方法仅适用于DatetimeIndex包含date对象而不是具有时间信息的datetime对象。
根据上面的示例,我用以下内容在调用fill_between()之前进行修复:
d['Date'] = [z.date() for z in d['Date']]

2
最初的回答: 我有一个类似的问题。 我有一个类似这样的DataFrame:
date        upper     lower 
2018-10-10  0.999614  0.146746
2018-10-26  0.999783  0.333178
2019-01-02  0.961252  0.176736
2019-01-08  0.977487  0.371374
2019-01-09  0.923230  0.286423
2019-01-10  0.880961  0.294823
2019-01-11  0.846933  0.303679
2019-01-14  0.846933  0.303679
2019-01-15  0.800336  0.269864
2019-01-16  0.706114  0.238787

with dtypes:

date     datetime64[ns]
upper           float64
lower           float64

以下是最初帖子中出现的错误信息
plt.fill_between(dplot.date, dplot.lower, dplot.upper, alpha=.2)

最初的回答
有趣的是,
plt.fill_between(dplot.date.values, dplot.lower, dplot.upper, alpha=.2)

最初的回答。这个东西完美地运作。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接