使用日期作为索引合并pandas数据帧

4

我正在尝试合并两个长度不同的数据框(称为df1和df2),它们都按其日期进行索引。 较长的dfs(df1)列出了较短的dfs(df2)中的所有日期。 我尝试使用以下命令将它们组合:merged = df2.merge(df1, on='Date'),但是当我这样做时,我不理解以下错误信息。

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-47-e8d3e1ec920d> in <module>()
----> 1 merged = df2.merge(df1, on='Date')

/usr/lib/python2.7/dist-packages/pandas/core/frame.pyc in merge(self, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy)
  3630                      left_on=left_on, right_on=right_on,
  3631                      left_index=left_index, right_index=right_index, sort=sort,
-> 3632                      suffixes=suffixes, copy=copy)
  3633 
  3634     #----------------------------------------------------------------------

/usr/lib/python2.7/dist-packages/pandas/tools/merge.pyc in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy)
    37                          right_on=right_on, left_index=left_index,
    38                          right_index=right_index, sort=sort, suffixes=suffixes,
---> 39                          copy=copy)
    40     return op.get_result()
    41 if __debug__:

/usr/lib/python2.7/dist-packages/pandas/tools/merge.pyc in __init__(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy)
    181         (self.left_join_keys,
    182          self.right_join_keys,
--> 183          self.join_names) = self._get_merge_keys()
    184 
    185     def get_result(self):

/usr/lib/python2.7/dist-packages/pandas/tools/merge.pyc in _get_merge_keys(self)
    324                 else:
    325                     if not is_rkey(rk):
--> 326                         right_keys.append(right[rk].values)
    327                         if lk == rk:
    328                             # avoid key upcast in corner case (length-0)

/usr/lib/python2.7/dist-packages/pandas/core/frame.pyc in __getitem__(self, key)
  1656             return self._getitem_multilevel(key)
  1657         else:
-> 1658             return self._getitem_column(key)
  1659 
  1660     def _getitem_column(self, key):

/usr/lib/python2.7/dist-packages/pandas/core/frame.pyc in _getitem_column(self, key)
  1663         # get column
  1664         if self.columns.is_unique:
-> 1665             return self._get_item_cache(key)
  1666 
  1667         # duplicate columns & possible reduce dimensionaility

/usr/lib/python2.7/dist-packages/pandas/core/generic.pyc in _get_item_cache(self, item)
  1003         res = cache.get(item)
  1004         if res is None:
-> 1005             values = self._data.get(item)
  1006             res = self._box_item_values(item, values)
  1007             cache[item] = res

/usr/lib/python2.7/dist-packages/pandas/core/internals.pyc in get(self, item)
  2872                 return self.get_for_nan_indexer(indexer)
  2873 
-> 2874             _, block = self._find_block(item)
  2875             return block.get(item)
  2876         else:

/usr/lib/python2.7/dist-packages/pandas/core/internals.pyc in _find_block(self, item)
  3184 
  3185     def _find_block(self, item):
-> 3186         self._check_have(item)
  3187         for i, block in enumerate(self.blocks):
  3188             if item in block:

/usr/lib/python2.7/dist-packages/pandas/core/internals.pyc in _check_have(self, item)
  3191     def _check_have(self, item):
  3192         if item not in self.items:
-> 3193             raise KeyError('no item named %s' % com.pprint_thing(item))
  3194 
  3195     def reindex_axis(self, new_axis, indexer=None, method=None, axis=0,

KeyError: u'no item named Date'

我也尝试过删除on='Date',因为两个都已经按日期索引了,但结果似乎没有改变。你有任何想法我可能出了什么问题吗?


使用 join 代替 merge;它默认按索引合并。 - Karl D.
@KarlD。感谢您的回复!所以如果我理解正确,它应该是这样的:merged = df2.join(df1) - neanderslob
@KarlD。我尝试了一下并得到了这些错误。不幸的是,我不知道它们意味着什么。 - neanderslob
我的建议是您打印出数据框的一部分并打印出df1.info()df2.info(),这样我们可以更好地了解实际情况。 - Karl D.
1
从您的错误消息来看,似乎存在重叠的列名;请添加类似于“rsuffix ='_y'”选项以进行连接。 - Karl D.
@KarlD。你是对的!通过使用resuffix='_y'更改列名,错误最终得到了修复。如果您想获得一些积分,请随意将评论写成答案。非常感谢。 - neanderslob
1个回答

4

我认为最自然的方法是使用join,因为它默认按索引合并。所以可以像下面这样操作:

merged = df2.join(df1,rsuffix='_y')

添加rsuffix='_y'是因为两个数据框中有相同的列名。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接