书架（shelve）真的很慢并且占用了很多内存，还是我做错了什么？

Question

书架（shelve）真的很慢并且占用了很多内存，还是我做错了什么？

3

我正在尝试编写一个程序，使用shelve数据库将字母排序作为键，列表中的单词作为值。例如：

db['mnoo'] = ['moon', 'mono']

我写了一个函数，它接受一个文件名并将其加载到shelve中。第一部分，将文件转换成与shelve相同布局的字典很好用，但是shelve部分需要很长时间。

我正在尝试使用大约100k条目的字典，每个值都是列表。似乎每1000个条目需要15-20秒，每个条目需要大约1kb的空间。这正常吗？
代码如下：

def save_to_db(filename, shelve_in='anagram_db'):
    dct = anagrams_from_list(process_file(filename))

    with shelve.open(shelve_in, 'c') as db:
        for key, wordlist in dct.items():
            if not key in db:
                db[key] = wordlist
            else:
                db[key].extend(wordlist)

编辑：仅简单澄清一下，字典中的每个列表大约只有1-3个单词，不应该太大。

- Nescio

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Charles Duffy · Accepted Answer

首先，是的，shelve的默认pickle后端很慢且效率低下，您最好选择使用其他方法。

其次，当您编辑已存在的条目时，而不是将它们在内存中达到最终状态，然后只进行一次序列化，这会使情况变得更糟。

dct = anagrams_from_list(process_file(filename))
for key, wordlist in dct.items():
  content = {}
  for key, wordlist in dct.iteritems():
    if not key in content:
      content[key] = wordlist
    else:
      content[key].extend(wordlist)

for k, v in content.iteritems():
  db[k] = v

如果你需要一个高效的数据库，我建议你寻找其他选择。比如：tokyocabinet、kyotocabinet、SQLite、BDB等等，这些选项非常多。