Pandas:将列转换为字符串无效。

15

我有一个数据框resultstatsDF

resultstatsDF = DataFrame({'a': [1,2,3,4,5]})
resultstatsDF['file'] = 'asdf'
resultstatsDF.dtypes
a        int64
file    object
dtype: object

我希望将object列的file转换为字符串:

我尝试过

resultstatsDF = resultstatsDF.astype({'file': str})
resultstatsDF['file'] = resultstatsDF['file'].astype(str)
resultstatsDF['file'] = resultstatsDF['file'].to_string
resultstatsDF['file'] = resultstatsDF.file.apply(str)
resultstatsDF['file'] = resultstatsDF['file'].apply(str)

但无论我做什么,当我检查时

resultstatsDF.dtypes

file 的类型仍然是 object

1个回答

15

stringdictlistdtype 始终为 object,为了测试类型需要选择某一列的一些值,例如通过 iat

type(resultstatsDF['file'].iat[0])

示例:
resultstatsDF = pd.DataFrame({'file':['a','d','f']})
print (resultstatsDF)
  file
0    a
1    d
2    f

print (type(resultstatsDF['file'].iloc[0]))
<class 'str'>

print (resultstatsDF['file'].apply(type))
0    <class 'str'>
1    <class 'str'>
2    <class 'str'>
Name: file, dtype: object

示例:

df = pd.DataFrame({'strings':['a','d','f'],
                   'dicts':[{'a':4}, {'c':8}, {'e':9}],
                   'lists':[[4,8],[7,8],[3]],
                   'tuples':[(4,8),(7,8),(3,)],
                   'sets':[set([1,8]), set([7,3]), set([0,1])] })

print (df)
      dicts   lists    sets strings  tuples
0  {'a': 4}  [4, 8]  {8, 1}       a  (4, 8)
1  {'c': 8}  [7, 8]  {3, 7}       d  (7, 8)
2  {'e': 9}     [3]  {0, 1}       f    (3,)

所有的值都有相同的 dtypes

print (df.dtypes)
dicts      object
lists      object
sets       object
strings    object
tuples     object
dtype: object

但是type是不同的,如果需要通过循环进行检查:

for col in df:
    print (df[col].apply(type))

0    <class 'dict'>
1    <class 'dict'>
2    <class 'dict'>
Name: dicts, dtype: object
0    <class 'list'>
1    <class 'list'>
2    <class 'list'>
Name: lists, dtype: object
0    <class 'set'>
1    <class 'set'>
2    <class 'set'>
Name: sets, dtype: object
0    <class 'str'>
1    <class 'str'>
2    <class 'str'>
Name: strings, dtype: object
0    <class 'tuple'>
1    <class 'tuple'>
2    <class 'tuple'>
Name: tuples, dtype: object

或者列的第一个值:

print (type(df['strings'].iat[0]))
<class 'str'>

print (type(df['dicts'].iat[0]))
<class 'dict'>

print (type(df['lists'].iat[0]))
<class 'list'>

print (type(df['tuples'].iat[0]))
<class 'tuple'>

print (type(df['sets'].iat[0]))
<class 'set'>

使用布尔索引,如果有混合列(则某些pandas函数可能会出现问题),可以按类型筛选:

df = pd.DataFrame({'mixed':['3', 5, 9,'2']})
print (df)
  mixed
0     3
1     5
2     9
3     2

print (df.dtypes)
mixed    object
dtype: object

for col in df:
    print (df[col].apply(type))
0    <class 'str'>
1    <class 'int'>
2    <class 'int'>
3    <class 'str'>
Name: mixed, dtype: object

#python 3 - string
#python 2 - basestring
mask = df['mixed'].apply(lambda x: isinstance(x,str))
print (mask)
0     True
1    False
2    False
3     True
Name: mixed, dtype: bool

df = df[mask]
print (df)
  mixed
0     3
3     2

1
我不了解r,所以我不知道问题出在哪里。 - jezrael
3
这是 Python 不是 R。 - Make42
很明显有问题,因为我收到了一个错误。我不明白你的意思。 - Make42
我查看了http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html,似乎需要使用`assign`,但是`mutate`不是pandas函数。 - jezrael
我正在使用dfplyr,这是一个Python包。函数的名称是mutate - Make42
显示剩余2条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接