假设我有这个数据框:
导入pandas库
我想生成这一列:
注意它使用的列是“Region1”和“Region2”,并且按排序顺序排列。我不知道如何在pandas中实现这一点。我唯一想到的解决方法是使用列表作为中间步骤:
导入pandas库
def creatingDataFrame():
raw_data = {'Region1': ['A', 'A', 'C', 'B' , 'A', 'B'],
'Region2': ['B', 'C', 'A', 'A' , 'B', 'A'],
'var-1': [20, 30, 40 , 50, 10, 20],
'var-2': [3, 4 , 5, 1, 2, 3]}
df = pd.DataFrame(raw_data, columns = ['Region1', 'Region2','var-1', 'var-2'])
return df
我想生成这一列:
df['segment']=['A-B','A-C','A-C','A-B','A-B','A-B']
注意它使用的列是“Region1”和“Region2”,并且按排序顺序排列。我不知道如何在pandas中实现这一点。我唯一想到的解决方法是使用列表作为中间步骤:
Regions=df[['Region1','Region2']].values.tolist()
segments=[]
for i in range(np.shape(Regions)[0]):
auxRegions=sorted(Regions[i][:])
segments.append(auxRegions[0]+'-'+auxRegions[1])
df['segments']=segments
获取:
>>> df['segments']
0 A-B
1 A-C
2 A-C
3 A-B
4 A-B
5 A-B