Python 3.6+高效访问字典项的位置

Question

Python 3.6+高效访问字典项的位置

pythonpython-3.xdictionarypython-internals

31

我知道字典在Python 3.6+中是按插入顺序排序的，这是在3.6中作为实现细节，在3.7+中正式成为规范。

既然它们是有序的，那么似乎没有任何方法可以通过插入顺序检索字典的第i个项目。可用的唯一解决方案似乎具有O(n)的复杂度，要么：

1.通过O(n)的过程将其转换为列表，然后使用list.__getitem__。 2.在循环中枚举字典项，并在达到所需索引时返回该值。同样，时间复杂度为O(n)。

由于从列表获取项目具有O(1)的复杂度，是否有办法使用字典实现相同的复杂度？使用常规dict或collections.OrderedDict都可以。

如果不可能，是否有结构上的原因阻止了这种方法，还是这只是一个尚未考虑/实施的功能？

- jpp

它被实现为链表。否则，删除元素将是不可能的。 - o11c

我可以想到一个不太常见的原因。它使得JSON行更加稳定，而无需封装列表和单独的字典。除此之外，我并没有真正理解这种热潮。 - roganjosh

@o11c，好的，显然我对此有些理解上的差距。但我可以看出（也许）你的意思，也许你需要具有O（n）位置访问来保持列表的O（1）删除与O（n）不同。 - jpp

1

根据 https://dev59.com/6VkS5IYBdhLWcg3wXFg9#39980744 ，只有一个按插入顺序排列的条目数组 dk_entries。没有链接列表。删除的条目将被替换为虚拟条目，并且在添加新条目时，可能会调整数组的大小（删除虚拟条目）。 - Michael Butscher

2

@o11c 它不是作为链表实现的。 - juanpa.arrivillaga

7

我认为他们只是不想将基本上是映射的东西添加类似于序列的行为。换句话说：你不应该像使用列表一样使用字典，但它确实维护顺序。 - juanpa.arrivillaga

2个回答

3

根据@TimPeters' answer，有结构性的原因使你不能在O（1）时间内按位置访问字典项。

如果您正在寻找按键或位置进行O（1）查找的替代方案，则值得考虑其他选择。有第三方库，如NumPy / Pandas，提供此类功能，特别是对于不需要指针的数字数组，效率高。

使用Pandas，您可以构建具有唯一标签的“类似字典”的系列，可通过“标签”或位置进行O（1）查找。您牺牲的是删除标签时的性能，这会产生O（n）成本，就像列表一样。

import pandas as pd

s = pd.Series(list(range(n)))

# O(n) item deletion
del s[i]
s.drop(i)
s.pop(i)

# O(1) lookup by label
s.loc[i]
s.at[i]
s.get(i)
s[i]

# O(1) lookup by position
s.iloc[i]
s.iat[i]

pd.Series绝不是dict的替代品。例如，重复的键不会被防止，并且如果系列主要用作映射，则会导致问题。然而，在数据存储在连续的内存块中时，就像上面的示例一样，您可能会看到显着的性能提升。

另请参见：

- jpp

1

不错。我在想，哪种最简单的数据结构能够满足 OP 的要求。 - Eric Duminil

1

@EricDuminil，确实如此。当考虑到替代dict时，人们并不总是会想到“Pandas系列！”，但如果满足某些条件，那么它肯定是可行的。语法通常也是相似的，例如s[i]，s.get(i)，del s[i]，s.keys()，s.items()。 - jpp

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tim Peters · Accepted Answer

对于有序字典OrderedDict，其本质上为O(n)的，因为顺序记录在链接列表中。

对于内置字典dict，使用了一个向量（连续数组）而不是链接列表，但最终结果基本相同：向量包含一些“哑值”（特殊的内部值），表示“这里尚未存储任何键”或“曾经在此处存储过键，但现在已经删除”。这使得删除键非常便宜（只需将键覆盖为哑值）。

但是，如果没有添加辅助数据结构，就无法跳过这些哑值，必须逐个遍历它们。因为Python使用一种开放地址形式进行碰撞解决，并将负载系数保持在2/3以下，因此向量的至少三分之一的条目为哑值。可以在O(1)时间内访问the_vector[i]，但实际上与第i个非哑值的条目没有可预测的关系。