使用Pandas读取带有注释标题的CSV文件

Question

使用Pandas读取带有注释标题的CSV文件

6

我有一些CSV文件，在标题行中有#：

s = '#one two three\n1 2 3'

如果我使用pd.read_csv，#符号将出现在第一个标题中：

import pandas as pd
from io import StringIO
pd.read_csv(StringIO(s), delim_whitespace=True)
     #one  two  three
0     1    2      3

如果我设置参数comment='#'，那么pandas会完全忽略该行。有没有简单的方法来处理这种情况？第二个相关问题是如何处理引用，在没有#的情况下可以工作：

s = '"one one" two three\n1 2 3'
print(pd.read_csv(StringIO(s), delim_whitespace=True))
   one one  two  three
0        1    2      3

它不适用于#：

s = '#"one one" two three\n1 2 3'
print(pd.read_csv(StringIO(s), delim_whitespace=True))
   #"one  one"  two  three
0      1     2    3    NaN

谢谢！

++++++++++ 更新

这里是第二个示例的测试。

s = '#"one one" two three\n1 2 3'
# here I am cheating slicing the string
wanted_result = pd.read_csv(StringIO(s[1:]), delim_whitespace=True)
# is there a way to achieve the same result configuring somehow read_csv?
assert wanted_result.equals(pd.read_csv(StringIO(s), delim_whitespace=True))

- Andrea Zonca

1

你不能只是为两种情况重命名错误的列名吗？当第二种情况只需要重命名它时，似乎你在滥用“comment”参数，而该参数的设计是专门用于忽略注释行。这不是什么大问题。 - EdChum

在第二种情况下，我无法重命名，因为我有两列，一列名为#"one，第二列名为one"。 - Andrea Zonca

这不是一个“错误的列”。这是一种非常普遍的情况，pandas无法正确处理。 - Slava

2个回答

1

您可以通过以下方式删除文件名的第一个#号：

s = u'#"one one" two three\n1 2 3'

import pandas as pd
from io import StringIO

wholefile=StringIO(s).read().split("#")[1]

pd.read_csv(StringIO(wholefile), delim_whitespace=True)

   one one  two  three
0        1    2      3

不方便的是需要将整个文件加载到内存中，但它可以工作。

- manu190466

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- farhawa · Accepted Answer

你可以通过以下方式重命名 read_csv() 输出的第一个标题：

import pandas as pd

from io import StringIO
df = pd.read_csv(StringIO(s), delim_whitespace=True)
new_name =  df.columns[0].split("#")[0]
df.rename(columns={df.columns[0]:new_name})