我解析了一个庞大的文献记录数据库(约2000万条记录)。每个记录都有一个唯一的ID字段,一组作者和一组用于描述文献记录主要内容的术语/关键词。例如,典型的文献记录如下:
ID: 001
Author: author1
Author: author2
Term: term1
Term: term2
首先,我创建了两个 `defaultdict` 用于存储作者和术语:
d1 = defaultdict(lambda : defaultdict(list))
d2 = defaultdict(lambda : defaultdict(list))
接下来,我填充作者:
d1['id001'] = ['author1', 'author2']
d1['id002'] = ['author3']
d1['id003'] = ['author1', 'author4']
关键字:
d2['id001'] = ['term1', 'term2']
d2['id002'] = ['term2', 'term3']
d2['id003'] = ['term4']
问题在于如何将这两个字典连接起来,以获取直接链接作者和术语的数据对象:
author1|term1,term2,term4
author2|term1,term2
author3|term2,term3
author4|term4
我有两个问题:
- 这种方法是否合适,或者我应该以其他方式存储/表示数据?
- 您能大致建议如何合并这两个字典吗?