基于索引（时间序列）合并 Pandas 行

Question

基于索引（时间序列）合并 Pandas 行

3

我使用了 Pandas 的 .append() 方法，通过索引（日期）从多个Pandas timeseries 中添加列。然而，与其将所有公共日期的数据合并为一行，数据看起来像这样：

sve2_all.sort(inplace=True)
print sve2_all['20000101':'20000104']



Hgtot ng/l     Q l/s  DOC_mg/L  Flow_mm/day  MeHg ng/l Site  \
2000-01-01          NaN       NaN       NaN         0.18        NaN  NaN   
2000-01-01          NaN  0.613234       NaN          NaN        NaN  SVE   
2000-01-02          NaN       NaN       NaN         0.18        NaN  NaN   
2000-01-02          NaN  0.614410       NaN          NaN        NaN  SVE   
2000-01-03          NaN       NaN       NaN          NaN        NaN    2   
2000-01-03          NaN  0.617371       NaN          NaN        NaN  SVE   
2000-01-03          NaN       NaN       NaN          NaN        NaN  NaN   
2000-01-03          NaN       NaN       NaN         0.18        NaN  NaN   
2000-01-04          NaN  0.627733       NaN          NaN        NaN  SVE   
2000-01-04          NaN       NaN       NaN         0.18        NaN  NaN   

            TOC_filt.TOC  TOC_unfilt.TOC  Temp oC  pH  
2000-01-01           NaN             NaN      NaN NaN  
2000-01-01           NaN             NaN -12.6117 NaN  
2000-01-02           NaN             NaN      NaN NaN  
2000-01-02           NaN             NaN  -2.3901 NaN  
2000-01-03           NaN        8.224648      NaN NaN  
2000-01-03           NaN             NaN  -5.0064 NaN  
2000-01-03           NaN             NaN      NaN NaN  
2000-01-03           NaN             NaN      NaN NaN  
2000-01-04           NaN             NaN  -1.5868 NaN  
2000-01-04           NaN             NaN      NaN NaN  

[10 rows x 10 columns]

我曾尝试使用以下方法对这些数据进行按天重新采样：

sve2_all.resample('D', how='mean')

同时也可以使用以下方式按天分组：

sve2_all.groupby(sve2_all.index.map(lambda t: t.day))

然而，DataFrame 保持不变。我该如何将相同日期的行合并为一个日期？谢谢。 附加信息：我尝试使用Joris建议的pd.concat()（由于1作为轴参数会导致ValueError:cannot reindex from a duplicate axis，所以我必须传递0），而不是.append()，但生成的DataFrame与.append()相同，是一个非均匀非单调时间序列。我认为索引是问题所在，但我不确定该怎么做才能修复它，我认为一些时间戳可能包含小时信息，而其他时间戳则没有，因此我尝试过在每个DataFrame上使用.resample('D',how='mean')，然后再使用.concat()，但没有任何区别。 解决方案：Joris的解决方案是正确的，我没有意识到.resample()不是就地操作。一旦.resample()被分配给一个新的DataFrame，Joris的建议提供了期望的结果。

- Jason

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- joris · Accepted Answer

append 方法将行添加到另一个数据帧中，并不基于索引标签进行合并。如果要基于索引标签进行合并，您可以使用 concat 方法。

使用一个玩具示例：

In [14]: df1 = pd.DataFrame(np.random.randn(3,2), columns=list('AB'), index=pd.date_range('2000-01-01', periods=3))
In [15]: df1
Out[15]:
                   A         B
2000-01-01  1.532085 -1.338895
2000-01-02 -0.016784 -0.270698
2000-01-03 -1.680379  0.838287

In [16]: df2 = pd.DataFrame(np.random.randn(3,2), columns=list('CD'), index=pd.date_range('2000-01-01', periods=3))
In [17]: df2
Out[17]:
                   C         D
2000-01-01  0.375214 -0.812558
2000-01-02 -1.099848 -0.889941
2000-01-03  1.556383  0.870608

.append会追加行（并添加不在df1中的df2列，这里是这种情况）：

In [18]: df1.append(df2)
Out[18]:
                   A         B         C         D
2000-01-01  1.532085 -1.338895       NaN       NaN
2000-01-02 -0.016784 -0.270698       NaN       NaN
2000-01-03 -1.680379  0.838287       NaN       NaN
2000-01-01       NaN       NaN  0.375214 -0.812558
2000-01-02       NaN       NaN -1.099848 -0.889941
2000-01-03       NaN       NaN  1.556383  0.870608

pd.concat()函数沿着其中一个索引轴将两个数据帧连接起来：

In [19]: pd.concat([df1, df2], axis=1)
Out[19]:
                   A         B         C         D
2000-01-01  1.532085 -1.338895  0.375214 -0.812558
2000-01-02 -0.016784 -0.270698 -1.099848 -0.889941
2000-01-03 -1.680379  0.838287  1.556383  0.870608

除此之外，resample 通常应该可以正常工作。