numpy.genfromtxt: delimiter=',' 无法分割字符串

3

我不明白为什么 numpy.genfromtxt 在使用 delimiter="," 时不能正确地分割以下字符串,而对于我块中的大多数其他字符串却有效。

chunk[12968]
Out[143]: '2901869281,3279442095,2012-12-15T23:00:00.003Z,Sacramento,CA,R#3817874,United States,38.583,-121.498,11, 8, 6, 5, 1, 0, 2, 3, 3, 5, 3, 3, 2, 2, 6, 6, 1, 2, 3, 0, 1, 1, 0, 0, 2, 2, 2, 2, 1, 0, 0, 2, 1, 0, 1, 1, 2, 0, 3, 1, 1, 1, 1, 0, 0, 4, 0, 0, 0, 1, 3, 1, 0, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 9, 0, 0, 0, 2, 3, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0,130\n'

我期望得到一个形状为(110,)的数组,但实际上得到了以下结果。
genfromtxt([chunk[12968]],delimiter=",",dtype=np.int64)
Out[142]: 
array([2901869281, 3279442095,         -1,         -1,         -1,
               -1], dtype=int64)

请注意,我正在使用来自itertools的izip_longest以此方式按块读取大型*csv:
with open('events.csv','r') as:
    for chunk in izip_longest(*[f] *50000):
          ...

感谢您的帮助。
1个回答

7
< p >genfromtxt()函数中的 comments 参数默认为 '#',所以输入中在 # 之后的部分会被忽略:< /p >
2901869281,3279442095,2012-12-15T23:00:00.003Z,Sacramento,CA,R#3817874,United States,...
                                                              ^ start of comment

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接