在Pandas中将元组中的字符串拆分为列

30

我有以下的DataFrame,其中Track ID是行索引。如何将stats列中的字符串拆分成5列数字?

Track ID    stats
14.0    (-0.00924175824176, 0.41, -0.742016492568, 0.0036830094242, 0.00251748449963)
28.0    (0.0411538461538, 0.318230769231, 0.758717081514, 0.00264000622468, 0.0106535783677)
42.0    (-0.0144351648352, 0.168438461538, -0.80870348637, 0.000816872566404, 0.00316572586742)
56.0    (0.0343461538462, 0.288730769231, 0.950844962874, 6.1608706775e-07, 0.00337262030771)
70.0    (0.00905164835165, 0.151030769231, 0.670257006716, 0.0121790506745, 0.00302182567957)
84.0    (-0.0047967032967, 0.171615384615, -0.552879463981, 0.0500316517755, 0.00217970256969)

通过发布数据框的df.to_dict()而不是其字符串表示,您将为其他人简化很多事情。 - chthonicdaemon
1
统计列,它是否包含类似元组的字符串,还是包含元组本身? - joris
感谢您的输入 - 我还处于一个陡峭的学习曲线的底部。我不知道 df.to_dict(),但它向我展示了我的数据中的 stats 列确实是元组,而不是字符串。例如,使用 [float(x[0]) for x in df['stats']] 给了我第0个元素。 - t_n
4个回答

59

对于另一种情况,假设它们是像元组一样的字符串:

In [74]: df['stats'].str[1:-1].str.split(',', expand=True).astype(float)
Out[74]:
          0         1         2         3         4
0 -0.009242  0.410000 -0.742016  0.003683  0.002517
1  0.041154  0.318231  0.758717  0.002640  0.010654
2 -0.014435  0.168438 -0.808703  0.000817  0.003166
3  0.034346  0.288731  0.950845  0.000001  0.003373
4  0.009052  0.151031  0.670257  0.012179  0.003022
5 -0.004797  0.171615 -0.552879  0.050032  0.002180

(注:对于旧版本的 Pandas(< 0.16.1),您需要使用 return_type='frame' 而不是 expand 关键字)

另外,如果是元组而不是字符串,您可以简单地执行以下操作:

pd.DataFrame(df['stats'].tolist(), index=df.index)

感谢您的输入。我对pandas、python和脚本编写都很陌生,所以还在努力理解基础知识。stats列中的数据确实是元组。使用df2 = df['stats'].apply(pd.Series)创建一个新的DataFrame让我有了很大的进展。再次感谢。 - t_n
6
return_type 已被废弃,现在应使用 expand=True - tacaswell
请不要使用apply(pd.Series)(或推荐其使用)。请参见何时应在代码中使用pandas apply()?更好的解决方案是先将列转换为列表。 - cs95

2

如果你有一系列的元组而不是字符串,并且你想把它们作为DataFrame的列,这是最简单的方法:

df = pd.concat([df['Track ID'],pd.DataFrame(df['stats'].values.tolist())], axis=1)

如果它实际上是字符串,您可以先将其转换为列表,如下所示,然后应用上述操作:

dfpart = pd.DataFrame(df['stats'].apply(lambda x: x.strip('()').split(', ')).values.tolist()).astype(float)
df = pd.concat([df['Track ID'], dfpart], axis=1)

0
假设您有一个包含元组(如示例中所示)而不是字符串的列,那么这将起作用:
df = pandas.DataFrame({'Track ID': [14, 28, 42], 'stats': [(1, 2, 3, 4, 5), (1, 2, 3, 4, 5), (1, 2, 3, 4, 5)]}).set_index("Track ID")

from operator import itemgetter
for i in range(5):
    df["Col {}".format(i)] = df.stats.apply(itemgetter(i))

如果您实际上有看起来像元组的字符串,您可以先解析它们,然后应用与上面相同的模式:
df = df2 = pandas.DataFrame({'Track ID': [14, 28, 42], 'stats': ["(1, 2, 3, 4, 5)", "(1, 2, 3, 4, 5)", "(1, 2, 3, 4, 5)"]}).set_index("Track ID")
df.stats = df2.stats.str.strip("()").str.split(", ")

0

由于您的统计列包含长度为5的元组,因此这个方法相当简洁地完成了任务。

pd.concat([df['Track ID'], pd.DataFrame(df['stats'].tolist(), index = 
df.index, columns = [f'stats_{i}' for i in range(1, 6)])], axis = 1)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接