如何在pandas中将csv字符串转换为列表？

Question

如何在pandas中将csv字符串转换为列表？

3

我正在处理一个具有以下格式的csv文件：

"Id","Sequence"
3,"1,3,13,87,1053,28576,2141733,508147108,402135275365,1073376057490373,9700385489355970183,298434346895322960005291,31479360095907908092817694945,11474377948948020660089085281068730"
7,"1,2,1,5,5,1,11,16,7,1,23,44,30,9,1,47,112,104,48,11,1,95,272,320,200,70,13,1,191,640,912,720,340,96,15,1,383,1472,2464,2352,1400,532,126,17,1,767,3328,6400,7168,5152,2464,784,160,19,1,1535,7424"
8,"1,2,4,5,8,10,16,20,32,40,64,80,128,160,256,320,512,640,1024,1280,2048,2560,4096,5120,8192,10240,16384,20480,32768,40960,65536,81920,131072,163840,262144,327680,524288,655360,1048576,1310720,2097152"
11,"1,8,25,83,274,2275,132224,1060067,3312425,10997342,36304451,301432950,17519415551,140456757358,438889687625,1457125820233,4810267148324,39939263006825,2321287521544174,18610239435360217"

我希望将此内容读入数据框中，其中df ['Id']的类型应类似于整数，df ['Sequence']的类型应类似于列表。目前我只有以下笨拙的代码：

def clean(seq_string):
    return list(map(int, seq_string.split(',')))

# Read data
training_data_file = "data/train.csv"    
train = pd.read_csv(training_data_file)
train['Sequence'] = list(map(clean, train['Sequence'].values))

这似乎是有效的，但我感觉可以使用pandas和numpy在本地实现相同效果。

有没有什么建议？

- erip

3个回答

1

这也可以运行，不过 Sequence 是字符串列表而不是整数列表：

df = pd.read_csv(training_data_file)
df['Sequence'] = df['Sequence'].str.split(',')

将每个元素转换为整数：

df = pd.read_csv(training_data_file)
df['Sequence'] = df['Sequence'].str.split(',').apply(lambda s: list(map(int, s)))

- Psidom

如果我想将它转换为整数列表，我只需要添加.convert_objects(convert_numeric=True)，对吗？ - erip

似乎该命令已被弃用，需要循环遍历列表并手动转换。但这又会回到最初的解决方案。 - Psidom

0

一个替代方案是使用ast模块中的literal_eval。literal_eval将字符串作为Python解释器的输入进行评估，并应按预期返回列表。

def clean(x):
    return literal_eval(x)

train = pd.read_csv(training_data_file, converters={'Sequence': clean})

- Uwais Iqbal

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alecxe · Accepted Answer

您可以为Sequence列指定一个转换器：

您可以为Sequence列指定一个converter：

converters: dict, 默认值是None

用于转换某些列中的值的函数字典。键可以是整数或列标签

train = pd.read_csv(training_data_file, converters={'Sequence': clean})