从DataFrame列构建Series时丢失数值

Question

从DataFrame列构建Series时丢失数值

pythonpandasdatetimedataframetime-series

4

我有一个DataFrame td，其中包含以下列：

In [111]: td.head(5)
Out[111]:
         Date      Time    Price
0  2015-09-21  00:01:26  4303.00
1  2015-09-21  00:01:33  4303.00
2  2015-09-21  00:02:21  4303.50
3  2015-09-21  00:02:21  4303.50
4  2015-09-21  00:02:31  4303.25

我的目标是创建一个包含日期时间和价格的系列。

我尝试过：

s = pd.Series(td['Price'], index=pd.to_datetime(td['Date'] + ' ' + td['Time']))

但是获得结果：

>>> s
2015-09-21 00:01:26   NaN
2015-09-21 00:01:33   NaN
2015-09-21 00:02:21   NaN
2015-09-21 00:02:21   NaN
                       ..
2015-09-25 16:59:58   NaN
2015-09-25 16:59:58   NaN
2015-09-25 16:59:58   NaN
2015-09-25 16:59:59   NaN
Name: Price, dtype: float64

所有“价格”值均为NaN。你有什么提示我做错了什么吗？

- PeterL

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Riley · Accepted Answer

当从DataFrame列创建Series并传入索引时，该列将根据新索引进行重新索引。

在您的情况下，新创建的Datetime索引中没有任何标签最初用于索引列td['Price']，因此返回了一系列缺失（NaN）值。

最简单的解决方法是传入td['Price'].values：

>>> pd.Series(td['Price'].values, index=pd.to_datetime(td['Date']+' '+td['Time'])
2015-09-21 00:01:26    4303.00
2015-09-21 00:01:33    4303.00
2015-09-21 00:02:21    4303.50
2015-09-21 00:02:21    4303.50
2015-09-21 00:02:31    4303.25
...

使用td['Price'].values意味着该列的值在NumPy数组中：该数组没有索引，而且pandas不会尝试重新索引这些值。