将以空行分隔的txt数据读取为多个numpy数组

Question

将以空行分隔的txt数据读取为多个numpy数组

3

我有一个txt文件，其中的数据如下：

# Contour 0, label:       37
 41.6  7.5
 41.5  7.4 
 41.5  7.3 
 41.4  7.2 

# Contour 1, label: 
 48.3  2.9 
 48.4  3.0 
 48.6  3.1 

# Contour 2, label: 
 61.4  2.9 
 61.3  3.0 
....

因此，每个块都以注释开头，并以空行结尾。我想读取这些数据并将它们带入一个由numpy数组组成的列表中，就像这样：

# list as i want it:
[array([[41.6, 7.5], [41.5, 7.4], [1.5, 7.3], [41.4, 7.2]]),
 array([[48.3, 2.9], [48.4, 3.0], [48.6, 3.1]]),
 array([[61.4, 2.9], [61.3, 3.0]]), ...]

有没有一种有效的方法可以使用numpy完成这项任务？genfromtxt或loadtxt似乎没有所需的选项！？

- Rintisch

loadtxt和genfromtxt并不是特别高效的。它们只是逐行读取输入，进行分割，并将值收集到列表中。转换在最后完成。对于简单的浮点数，您自己的读取器同样好用。 - hpaulj

早期的SO问题中有关于按块读取CSV的问题。读取器可以接受任何来源的行。编写您自己的过滤器或生成器即可。 - hpaulj

2个回答

2

您可以使用Python的groupby函数将这3个条目分组如下：

from itertools import groupby
import numpy as np

array_list = []

with open('data.txt') as f_data:    
    for k, g in groupby(f_data, lambda x: x.startswith('#')):
        if not k:
            array_list.append(np.array([[float(x) for x in d.split()] for d in g if len(d.strip())]))

for entry in array_list:
    print entry
    print

这将显示array_list的内容如下：

[[ 41.6   7.5]
 [ 41.5   7.4]
 [ 41.5   7.3]
 [ 41.4   7.2]]

[[ 48.3   2.9]
 [ 48.4   3. ]
 [ 48.6   3.1]]

[[ 61.4   2.9]
 [ 61.3   3. ]]

- Martin Evans

我需要一段时间来理解它为什么以及如何工作。哇，谢谢！ - Rintisch

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alec_djinn · Accepted Answer

像这样吗？

import numpy as np

text = \
'''
# Contour 0, label:       37
 41.6  7.5
 41.5  7.4 
 41.5  7.3 
 41.4  7.2 

# Contour 1, label: 
 48.3  2.9 
 48.4  3.0 
 48.6  3.1 

# Contour 2, label: 
 61.4  2.9 
 61.3  3.0 
'''
for line in text.split('\n'):
    if line != '' and not line.startswith('#'):
        data = line.strip().split()
        array = np.array([float(d) for d in data])
        print(array)