如何在pandas中将多列转换为一个日期时间列？

Question

如何在pandas中将多列转换为一个日期时间列？

100

我有一个DataFrame，其中前3列是“MONTH”，“DAY”，“YEAR”

每列中都有一个整数。是否有一种Pythonic的方法可以在DataFrame中将这三列全部转换为日期时间？

M    D    Y    Apples   Oranges
5    6  1990      12        3
5    7  1990      14        4
5    8  1990      15       34
5    9  1990      23       21

转化为：

Datetimes    Apples   Oranges
1990-6-5        12        3
1990-7-5        14        4
1990-8-5        15       34
1990-9-5        23       21

- user1367204

8个回答

71

在0.13版本中（即将推出），这得到了大力优化，速度相当快（但在0.12中仍然相当快）；比循环快几个数量级。

In [3]: df
Out[3]: 
   M  D     Y  Apples  Oranges
0  5  6  1990      12        3
1  5  7  1990      14        4
2  5  8  1990      15       34
3  5  9  1990      23       21

In [4]: df.dtypes
Out[4]: 
M          int64
D          int64
Y          int64
Apples     int64
Oranges    int64
dtype: object

# in 0.12, use this
In [5]: pd.to_datetime((df.Y*10000+df.M*100+df.D).apply(str),format='%Y%m%d')

# in 0.13 the above or this will work
In [5]: pd.to_datetime(df.Y*10000+df.M*100+df.D,format='%Y%m%d')
Out[5]: 
0   1990-05-06 00:00:00
1   1990-05-07 00:00:00
2   1990-05-08 00:00:00
3   1990-05-09 00:00:00
dtype: datetime64[ns]

- Jeff

谢谢，它起作用了，你能解释一下10000和100的目的吗？算了，它们的目的是将2011年5月3日转换为20110503，这样就可以轻松阅读了。谢谢！ - user1367204

是的 - 实际上这是最快的方法，因为这些是矢量化的数值操作，并且转换为日期时间不需要通过字符串来回传输。 - Jeff

8

我很感兴趣看看你是否能从 pd.to_datetime(dict(year=df.Y, month=df.M, day=df.D)) 中获得更好的结果。 - holdenweb

1

根据 %timeit 的结果，它们大致相同 - 数值版本在我使用的数据集上可能快5-10％。我将使用字典版本，因为它更易读。 - naught101

请参见以下链接：https://dev59.com/Sn4QtIcB2Jgan1znrYb_#75118182 - Laurent B.

8

这里有一种替代方法，使用NumPy datetime64和timedelta64算术。对于小型数据框架来说似乎更快，而对于大型数据框架来说则快得多：

import numpy as np
import pandas as pd

df = pd.DataFrame({'M':[1,2,3,4], 'D':[6,7,8,9], 'Y':[1990,1991,1992,1993]})
#    D  M     Y
# 0  6  1  1990
# 1  7  2  1991
# 2  8  3  1992
# 3  9  4  1993

y = np.array(df['Y']-1970, dtype='<M8[Y]')
m = np.array(df['M']-1, dtype='<m8[M]')
d = np.array(df['D']-1, dtype='<m8[D]')
dates2 = pd.Series(y+m+d)
# 0   1990-01-06
# 1   1991-02-07
# 2   1992-03-08
# 3   1993-04-09
# dtype: datetime64[ns]

In [214]: df = pd.concat([df]*1000)

In [215]: %timeit pd.to_datetime((df['Y']*10000+df['M']*100+df['D']).astype('int'), format='%Y%m%d')
100 loops, best of 3: 4.87 ms per loop

In [216]: %timeit pd.Series(np.array(df['Y']-1970, dtype='<M8[Y]')+np.array(df['M']-1, dtype='<m8[M]')+np.array(df['D']-1, dtype='<m8[D]'))
1000 loops, best of 3: 839 µs per loop

这是一个帮助函数，可以使其更易于使用：

def combine64(years, months=1, days=1, weeks=None, hours=None, minutes=None,
              seconds=None, milliseconds=None, microseconds=None, nanoseconds=None):
    years = np.asarray(years) - 1970
    months = np.asarray(months) - 1
    days = np.asarray(days) - 1
    types = ('<M8[Y]', '<m8[M]', '<m8[D]', '<m8[W]', '<m8[h]',
             '<m8[m]', '<m8[s]', '<m8[ms]', '<m8[us]', '<m8[ns]')
    vals = (years, months, days, weeks, hours, minutes, seconds,
            milliseconds, microseconds, nanoseconds)
    return sum(np.asarray(v, dtype=t) for t, v in zip(types, vals)
               if v is not None)

In [437]: combine64(df['Y'], df['M'], df['D'])
Out[437]: array(['1990-01-06', '1991-02-07', '1992-03-08', '1993-04-09'], dtype='datetime64[D]')

- unutbu

1

我认为，或者至少这个功能，对于pandas来说是一个不错的增强。我们只需要找出一个API即可。 - joris

1

是的，像 *10000 或 -1970 这样的操作很愚蠢。我们应该能够更简单地组合标准时间类型。(如果确实有更好的方法，但是我们都不知道，那么至少存在一个文档错误..) - DSM

6

我重新审视这个问题，我认为我找到了一个解决方案。我用以下方式初始化了csv文件：

pandas_object = DataFrame(read_csv('/Path/to/csv/file', parse_dates=True, index_col = [2,0,1] ))

在哪里：

index_col = [2,0,1]

该文表示[年份、月份、日]的列。

现在唯一的问题是，我有了三个新的索引列，一个代表年份，另一个代表月份，还有一个代表日。

- user1367204

4

请尝试使用parse_dates=[[2,0,1]]参数（注意有双方括号）。可以查看read_csv的文档字符串获取示例。 - TomAugspurger

2

将数据框转换为字符串以便进行简单的字符串拼接：

df=df.astype(str)

然后将其转换为日期时间格式，并指定格式：

df.index=pd.to_datetime(df.Y+df.M+df.D,format="%Y%m%d")

它替换索引而不是创建新列。

- Q-man

2

更好的方法如下所示：

import pandas as pd

import datetime

dataset = pd.read_csv('dataset.csv')

date=dataset.apply(lambda x: datetime.date(int(x['Yr']), x['Mo'], x['Dy']),axis=1)

date = pd.to_datetime(date)

dataset = dataset.drop(columns=['Yr', 'Mo', 'Dy'])

dataset.insert(0, 'Date', date)

dataset.head()

- dolly singh

1

请在此代码中添加一些描述或注释，说明您正在做什么。 - Sergei Sirik

1

 [pd.to_datetime(str(a)+str(b)+str(c),
                 format='%m%d%Y'
                ) for a,b,c in zip(df.M, df.D, df.Y)]

- A.Kot

0

假设您有一个名为foo的字典，其中每个日期列都是平行的。如果是这样，这就是您的一行代码：

>>> from datetime import datetime
>>> foo = {"M": [1,2,3], "D":[30,30,21], "Y":[1980,1981,1982]}
>>>
>>> df = pd.DataFrame({"Datetime": [datetime(y,m,d) for y,m,d in zip(foo["Y"],foo["M"],foo["D"])]})

它的真正核心是这一部分：

>>> [datetime(y,m,d) for y,m,d in zip(foo["Y"],foo["M"],foo["D"])]
[datetime.datetime(1980, 1, 30, 0, 0), datetime.datetime(1981, 2, 28, 0, 0), datetime.datetime(1982, 3, 21, 0, 0)]

这就是 zip 的用途。它将并行列表转换为元组。然后它们被元组解包（for y,m,d in 部分）通过列表推导式，然后传递给 datetime 对象构造器。 pandas 似乎对这些日期时间对象很满意。

- Dan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

在版本0.18.1中，你可以使用to_datetime方法，但需要注意以下几点：

列的名称必须是year、month、day、hour、minute和second。
最少需要包含year、month和day这3列。

示例：

import pandas as pd

df = pd.DataFrame({'year': [2015, 2016],
                   'month': [2, 3],
                    'day': [4, 5],
                    'hour': [2, 3],
                    'minute': [10, 30],
                    'second': [21,25]})
    
print df
   day  hour  minute  month  second  year
0    4     2      10      2      21  2015
1    5     3      30      3      25  2016

print pd.to_datetime(df[['year', 'month', 'day']])
0   2015-02-04
1   2016-03-05
dtype: datetime64[ns]

print pd.to_datetime(df[['year', 'month', 'day', 'hour']])
0   2015-02-04 02:00:00
1   2016-03-05 03:00:00
dtype: datetime64[ns]

print pd.to_datetime(df[['year', 'month', 'day', 'hour', 'minute']])
0   2015-02-04 02:10:00
1   2016-03-05 03:30:00
dtype: datetime64[ns]

print pd.to_datetime(df)
0   2015-02-04 02:10:21
1   2016-03-05 03:30:25
dtype: datetime64[ns]

另一个解决方案是转换为字典：

print df
   M  D     Y  Apples  Oranges
0  5  6  1990      12        3
1  5  7  1990      14        4
2  5  8  1990      15       34
3  5  9  1990      23       21

print pd.to_datetime(dict(year=df.Y, month=df.M, day=df.D))
0   1990-05-06
1   1990-05-07
2   1990-05-08
3   1990-05-09
dtype: datetime64[ns]