如何用Pythonic的方式将CSV文件数据读取为命名元组的行？

Question

如何用Pythonic的方式将CSV文件数据读取为命名元组的行？

38

如何最佳地读取包含标题行的数据文件并将其读入命名元组，以便可以通过标题名称访问数据行？

我尝试了类似于这样的代码：

import csv
from collections import namedtuple

with open('data_file.txt', mode="r") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", ", ".join(i for i in reader[0]))
    next(reader)
    for row in reader:
        data = Data(*row)

reader对象不可下标索引，所以上述代码会引发TypeError。如何以Pythonic方式将文件头读入namedtuple中？

- drbunsen

3个回答

30

请参考csv.DictReader。它提供了从第一行获取列名的功能，正如您所需要的，然后使用字典按名称访问每行中的每个列。

如果出于某种原因仍需要将行作为collections.namedtuple访问，则可以轻松地将字典转换为命名元组，如下所示：

with open('data_file.txt') as infile:
    reader = csv.DictReader(infile)
    Data = collections.namedtuple('Data', reader.fieldnames)
    tuples = [Data(**row) for row in reader]

- jcollado

6

这个解决方案的问题在于每一行都被转换为字典，然后再转换为命名元组。如果不需要中间步骤的字典，则效率低下。 - Chris Cogdon

1

这种方法无法保持顺序，因此你的 CSV 文件中的第一列将成为命名元组中的随机列。到那时，最好使用字典。 - hraban

在我的情况下，列的顺序并不重要，但是命名元组比字典更好，因为它使代码更易读，并且在访问列名时会检查拼写。 - undefined

@JohnHenckel 好久不见，但我想我和Chris在这里的评论背后的想法是，如果你要使用namedtuple，就直接使用Sven提供的被接受的答案。如果你要使用字典，就坚持使用字典。不要从csv转换为字典再转换为namedtuple。我想这就是我们的观点。 - undefined

0

我建议采用以下方法：

import csv
from collections import namedtuple

with open("data.csv", 'r') as f:
        reader = csv.reader(f, delimiter=',')
        Row = namedtuple('Row', next(reader))
        rows = [Row(*line) for line in reader]

如果您使用Pandas，解决方案会变得更加优雅：

import pandas as pd
from collections import namedtuple

data = pd.read_csv("data.csv")
Row = namedtuple('Row', data.columns)
rows = [Row(*row) for index, row in data.iterrows()]

在这两种情况下，您都可以通过字段名称与记录进行交互：

for row in rows:
    print(row.foo)

- Roman

1

我认为 Row = namedtuple('Row', next(reader)) 不会按照你的方式工作，因为 namedtuple 的第二个参数应该是元组子类的字段名，这些字段名“是一个字符串序列，例如 ['x'，'y']”，根据文档。你还在循环中重复创建 reader。 - martineau

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sven Marnach · Accepted Answer

用途：

Data = namedtuple("Data", next(reader))

并且省略这一行：

next(reader)

将这个与基于Martineau下方评论的迭代版本结合起来，示例变为Python 2的版本

import csv
from collections import namedtuple
from itertools import imap

with open("data_file.txt", mode="rb") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", next(reader))  # get names from column headers
    for data in imap(Data._make, reader):
        print data.foo
        # ...further processing of a line...

还有适用于Python 3的版本

import csv
from collections import namedtuple

with open("data_file.txt", newline="") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", next(reader))  # get names from column headers
    for data in map(Data._make, reader):
        print(data.foo)
        # ...further processing of a line...