我将从R翻译一些代码到Python以提高性能,但我对pandas库不太熟悉。
我有一个CSV文件,看起来像这样:
但是这会产生以下错误:
我有一个CSV文件,看起来像这样:
O43657,GO:0005737
A0A087WYV6,GO:0005737
A0A087WZU5,GO:0005737
Q8IZE3,GO:0015630 GO:0005654 GO:0005794
X6RHX1,GO:0015630 GO:0005654 GO:0005794
Q9NSG2,GO:0005654 GO:0005739
我想要将第二列根据分隔符(这里是空格)拆分,并获取该列中的唯一值。在这种情况下,代码应返回[GO:0005737, GO:0015630, GO:0005654 GO:0005794, GO:0005739]
。
在R中,我会使用以下代码实现:
df <- read.csv("data.csv")
unique <- unique(unlist(strsplit(df[,2], " ")))
在Python中,我使用pandas编写了以下代码:
df = pd.read_csv("data.csv")
split = df.iloc[:, 1].str.split(' ')
unique = pd.unique(split)
但是这会产生以下错误:
TypeError: unhashable type: 'list'
如何在Python中按分隔符将CSV文件的一列拆分后获取唯一值?