在Pandas中重命名多个列

4

我有一个CSV文件,我想将其中的一些列重命名为相同的名称。我的初始代码如下:

df = pd.read_csv('New.csv')

我使用了以下代码从数据框中提取选定的列:

我使用了以下代码从数据框中提取选定的列

df.columns[1::3]

这个切片获取每三列。 现在我想用相同的名称重命名这些每三列,但是尝试像这样重命名我的列 会给我一个错误。

df.columns[1::3]= ['SomeName']
raise TypeError("Index does not support mutable operations")

我能否在pandas中重命名多个具有相同名称的列?

是否有其他建议可以避免手动操作?


如果需要动态重命名,新列名的模式是什么? - jezrael
3个回答

3

我认为最好的方法是使用rename函数,并使用唯一的新列名称,例如:

df = pd.DataFrame({'A':list('abcdef'),
                   'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'D':[1,3,5,7,1,0],
                   'E':[5,3,6,9,2,4],
                   'F':list('aaabbb')})

print (df)
   A  B  C  D  E  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

d = dict(zip(df.columns[1::3], range(len(df.columns[1::3]))))
print (d)
{'B': 0, 'E': 1}


df = df.rename(columns=d)
print (df)
   A  0  C  D  1  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

或者:

d = dict(zip(df.columns[1::3], 
             ['name{}'.format(x) for x in range(len(df.columns[1::3]))]))
print (d)
{'B': 'name0', 'E': 'name1'}

df = df.rename(columns=d)
print (df)
   A  name0  C  D  name1  F
0  a      4  7  1      5  a
1  b      5  8  3      3  a
2  c      4  9  5      6  a
3  d      5  4  7      9  b
4  e      5  2  1      2  b
5  f      4  3  0      4  b

不推荐的解决方案是重命名相同列名:

d = dict.fromkeys(df.columns[1::3], 'Name')
print (d)
{'B': 'Name', 'E': 'Name'}

df = df.rename(columns=d)
print (df)
   A  Name  C  D  Name  F
0  a     4  7  1     5  a
1  b     5  8  3     3  a
2  c     4  9  5     6  a
3  d     5  4  7     9  b
4  e     5  2  1     2  b
5  f     4  3  0     4  b

因为如果想选择列 Name,它会返回 DataFrame 中的所有列:

print (df['Name'])
   Name  Name
0     4     5
1     5     3
2     4     6
3     5     9
4     5     2
5     4     4

我想在这里使用相同的列名的原因是我想要对这些列名进行分组。 - user96564
d = dict.fromkeys(df.columns[1::3], 'Name')df['name'].sum(axis=1) 这样的编程语句吗?那么是可以使用的。 - jezrael
不,目标是将那些分组列用作索引而不是求和。 - user96564

1

df.columns的类型是pandas.indexes.base.Index,因此您会收到TypeError错误。如果将其转换为列表,则可以使用切片更新(重命名),并将df.columns设置为更新后的列表。

这对我有用:

lst = list(df.columns)
lst[1::3] = ['someName']*len(lst[1::3])
df.columns = lst

或者使用独特的新列名(正如@jezrael指出,可能不建议使用相同的名称):
lst = list(df.columns)
lst[1::3] = ['someName{}'.format(x) for x in range(len(lst[1::3]))] 
df.columns = lst

1

pandas索引对象的底层是numpy数组。

您可以利用这一事实使用numpy惯例进行切片和赋值。

@jezrael的数据。需要明确提取值的原因是由于此已知问题

df = pd.DataFrame({'A':list('abcdef'),
                   'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'D':[1,3,5,7,1,0],
                   'E':[5,3,6,9,2,4],
                   'F':list('aaabbb')})

arr = df.columns.values
arr[1::3] = range(2)
df.columns = arr

print(df)

   A  0  C  D  1  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

不,我不想这样做。非常糟糕的答案。https://dev59.com/KlgQ5IYBdhLWcg3wGgP0 - jezrael
在我看来,这样做太危险了,所以我给它点了踩。但是如果你改变答案,我会取消踩的,没问题。 - jezrael
刚在 pandas 0.23.0 中测试过,仍然存在问题,请勿使用。 - jezrael
在我看来,最好不要使用它,因为它的行为太奇怪了。 - jezrael
@jezrael,但我并没有“使用它”。我是在复制值,更改它们,然后重新分配回去...这与您链接的问题完全不同。 - jpp

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接