如何将CSV文件中的多行合并为一行

Question

如何将CSV文件中的多行合并为一行

4

我需要对一份庞大的CSV文件进行裁剪，以便用于机器学习。我已经找到了将该文件分解为我所需的两行数据的方法，但是我遇到了一个问题。

基本上我的文件结构如下。

 "David", "Red"
 "David", "Ford"
 "David", "Blue"
 "David", "Aspergers"
 "Steve", "Red"
 "Steve", "Vauxhall"

而我需要数据看起来更像这样...

"David, "Red", "Ford", "Blue", "Aspergers"
"Steve", "Red", "Vaxhaull"

我目前有这个来剥离CSV文件

import csv

cr = csv.reader(open("traits.csv","rb"), delimiter=',', lineterminator='\n')
cr.next() #skipping header line, no point in removing it as I need to standardise data manipuation.


# Print out the id of species and trait values
print 'Stripping input'
vals = [(row[1], row[4]) for row in cr]
print str(vals) + '\n'

with open("output.csv", "wb") as f:
    writer = csv.writer(f)
    writer.writerows(vals)
    print 'Sucessfully written to file output.csv'


#for row in cr:
#print row

- KeironO

2个回答

0

使用 defaultdict，这正是你所需要的，以下是一个示例：

>>> from collections import defaultdict
>>> md = defaultdict(list)
>>> md[1].append('a')
>>> md[1].append('b')
>>> md[2].append('c')
>>> md[1]
['a', 'b']
>>> md[2]
['c']

（你可以使用集合而不是列表，这种情况下你需要调用 .add 而不是 .append。）

你可以使用 iteritems 来轻松访问数据。

- Meghdeep Ray

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mazdak · Accepted Answer

使用字典将名称作为键，其他属性作为值存储在列表中:

my_dict={}
with open("traits.csv","rb") as f:
   cr = csv.reader(f, delimiter=',', lineterminator='\n')
   for row in cr:
       my_dict.setdefault(row[0].strip('" '),[]).append(row[1].strip('" '))

结果：

print my_dict
{'Steve': ['Red', 'Vauxhall'], 'David': ['Red', 'Ford', 'Blue', 'Aspergers']}

新建文件写入内容的方法：

with open("output.csv", "wb") as f:
    writer = csv.writer(f,delimiter=',')
    for i,j in my_dict.iteritems():
        writer.writerow([i]+j)

setdefault(key[, default])

如果字典中有key这个键，返回它对应的值；如果没有，将key和默认值default插入字典，并返回默认值。其中，default默认为None。