在Python中使用二分法查找指定范围内的数字

5

我有一个整数列表,想要编写一个函数,返回在某个范围内的数字子集。类似于NumbersWithinRange(list, interval)这样的函数名...

I.e.,

list = [4,2,1,7,9,4,3,6,8,97,7,65,3,2,2,78,23,1,3,4,5,67,8,100]
interval = [4,20]
results = NumbersWithinRange(list, interval)  # [4,4,6,8,7,8]

也许我在结果中忘记写一个数字了,但这就是我的想法...
该列表可以达到1000/2000万的长度,范围通常为几百个。
有没有关于如何使用Python高效地完成此任务的建议 - 我正在考虑使用bisect。
谢谢。

5
不应使用 list 作为变量名。如果这样做,Python 中的内置列表构造函数可以被(悄悄地)重新赋值。请注意修改变量名称以避免此问题。 - the wolf
这只是一个例子,我不会在代码中使用那个名称。谢谢你的纠正。 - Dnaiel
8个回答

7
我建议使用numpy进行处理,尤其是当列表较长时。例如:
In [101]: list = np.array([4,2,1,7,9,4,3,6,8,97,7,65,3,2,2,78,23,1,3,4,5,67,8,100])
In [102]: list
Out[102]: 
array([  4,   2,   1,   7,   9,   4,   3,   6,   8,  97,   7,  65,   3,
         2,   2,  78,  23,   1,   3,   4,   5,  67,   8, 100])
In [103]: good = np.where((list > 4) & (list < 20)) 
In [104]: list[good]
Out[104]: array([7, 9, 6, 8, 7, 5, 8])

# %timeit says that numpy is MUCH faster than any list comprehension: 
# create an array 10**6 random ints b/w 0 and 100
In [129]: arr = np.random.randint(0,100,1000000)
In [130]: interval = xrange(4,21)
In [126]: %timeit r = [x for x in arr if x in interval]
1 loops, best of 3: 14.2 s per loop

In [136]: %timeit good = np.where((list > 4) & (list < 20)) ; new_list = list[good]
100 loops, best of 3: 10.8 ms per loop

In [134]: %timeit r = [x for x in arr if 4 < x < 20]
1 loops, best of 3: 2.22 s per loop 

In [142]: %timeit filtered = [i for i in ifilter(lambda x: 4 < x < 20, arr)]
1 loops, best of 3: 2.56 s per loop

当你使用4 <= x <= 20而不是x in interval时,列表推导式会怎么做呢?检查值是否在xrange迭代器中会减慢速度。 - chepner
啊,是的,我现在明白了。我没有仔细注意单位(秒 vs 毫秒)。numpy确实快得多。 - chepner
你的timeit没有包括arr[good]。在numpy数组中逐个枚举项目很慢,Python列表应该更快。此外,OP表示生成的数组应该有大约100个项目;使用更大的限制来进行randint操作。 - jfs
@chepner,是的,使用numpy只需要10毫秒,而使用纯Python则需要2秒。 - reptilicus
这里有一个很好的讨论,我会查看两个选项来优化我的代码。在我的情况下,我需要调用这个函数数百万次,所以我真的需要它运行得很快。我会试一试它们。非常感谢! - Dnaiel
显示剩余3条评论

6

纯Python的Python sortedcontainers模块提供了一个SortedList类型,可以帮助您。它会自动按排序顺序维护列表,并已通过数千万个元素的测试。排序列表类型具有可用的二分函数。

from sortedcontainers import SortedList
data = SortedList(...)

def NumbersWithinRange(items, lower, upper):
    start = items.bisect(lower)
    end = items.bisect_right(upper)
    return items[start:end]

subset = NumbersWithinRange(data, 4, 20)

切分和索引这样做比扫描整个列表要快得多。sorted containers 模块非常快,并且有一个与替代实现的基准测试 性能比较 页面。

5

如果列表没有排序,您需要扫描整个列表:

lst = [ 4,2,1,...]
interval=[4,20]
results = [ x for x in lst if interval[0] <= x <= interval[1] ]

如果该列表已经排序,你可以使用bisect来找到左右索引,以限定范围。

left = bisect.bisect_left(lst, interval[0])
right = bisect.bisect_right(lst, interval[1])

results = lst[left+1:right]

由于扫描列表的时间复杂度为O(n),而排序的时间复杂度为O(n lg n),因此,如果您不打算进行大量范围提取操作,那么仅仅为了使用bisect而对列表进行排序可能并不值得。


是的,我计划进行1亿次或更多次的数据提取,这听起来现实吗?还是需要很长时间? - Dnaiel
很难说,但使用numpy的答案,因为它比纯Python解决方案快得多。 - chepner

2
我认为这应该已经足够高效了。
>>> nums = [4,2,1,7,9,4,3,6,8,97,7,65,3,2,2,78,23,1,3,4,5,67,8,100]
>>> r = [x for x in nums if 4 <= x <21]
>>> r
[4, 7, 9, 4, 6, 8, 7, 4, 5, 8]

编辑:

在J.F. Sebastian的精彩观察后,修改了代码。


这会起作用,但如果列表确实是10^6的顺序,它会很慢。 - reptilicus
没有明确说明列表是否已排序;如果已排序,则二分查找应该更快。 - Burhan Khalid
3
在Python中,i in xrange并不是优化过的(与Python 3上的i in range不同)。它和i in iterable是一样的,也就是逐个枚举值。因此应该使用4 <= x < 21来代替。 - jfs

1

使用迭代器

>>> from itertools import ifilter
>>> A = [4,2,1,7,9,4,3,6,8,97,7,65,3,2,2,78,23,1,3,4,5,67,8,100]
>>> [i for i in ifilter(lambda x: 4 < x < 20, A)]
[7, 9, 6, 8, 7, 5, 8]

1

让我们创建一个类似于您所描述的列表:

import random  
l = [random.randint(-100000,100000) for i in xrange(1000000)]

现在测试一些可能的解决方案:

interval=range(400,800)

def v2():
    """ return a list """
    return [i for i in l if i in interval]

def v3():
    """ return a generator """
    return list((i for i in l if i in interval))

def v4():
    def te(x):
        return x in interval

    return filter(te,l)

def v5():
    return [i for i in ifilter(lambda x: x in interval, l)]    


print len(v2()),len(v3()), len(v4()), len(v5())
cmpthese.cmpthese([v2,v3,v4,v5],micro=True, c=2)

打印这个:

   rate/sec   usec/pass   v5    v4    v2    v3
v5        0 6929225.922   -- -0.4% -1.0% -1.6%
v4        0 6903028.488 0.4%    -- -0.6% -1.2%
v2        0 6861472.487 1.0%  0.6%    -- -0.6%
v3        0 6817855.477 1.6%  1.2%  0.6%    --

然而,如果interval是一个集合而不是列表,看看会发生什么:

interval=set(range(400,800))
cmpthese.cmpthese([v2,v3,v4,v5],micro=True, c=2)

  rate/sec  usec/pass     v5     v4     v3     v2
v5        5 201332.569     -- -20.6% -62.9% -64.6%
v4        6 159871.578  25.9%     -- -53.2% -55.4%
v3       13  74769.974 169.3% 113.8%     --  -4.7%
v2       14  71270.943 182.5% 124.3%   4.9%     --

现在与numpy进行比较:

na=np.array(l)

def v7():
    """ assume you have to convert from list => numpy array and return a list """
    arr=np.array(l)
    tgt = np.where((arr >= 400) & (arr < 800)) 
    return [arr[x] for x in tgt][0].tolist()


def v8():
    """ start with a numpy list but return a python list """
    tgt = np.where((na >= 400) & (na < 800)) 
    return na[tgt].tolist()


def v9():
    """ numpy all the way through """
    tgt = np.where((na >= 400) & (na < 800)) 
    return [na[x] for x in tgt][0]  
    # or return na[tgt] if you prefer that syntax...    

cmpthese.cmpthese([v2,v3,v4,v5, v7, v8,v9],micro=True, c=2)  

   rate/sec  usec/pass      v5      v4      v7     v3     v2     v8     v9
v5        5 185431.957      --  -17.4%  -24.7% -63.3% -63.4% -93.6% -93.6%
v4        7 153095.007   21.1%      --   -8.8% -55.6% -55.7% -92.3% -92.3%
v7        7 139570.475   32.9%    9.7%      -- -51.3% -51.4% -91.5% -91.5%
v3       15  67983.985  172.8%  125.2%  105.3%     --  -0.2% -82.6% -82.6%
v2       15  67861.438  173.3%  125.6%  105.7%   0.2%     -- -82.5% -82.5%
v8       84  11850.476 1464.8% 1191.9% 1077.8% 473.7% 472.6%     --  -0.0%
v9       84  11847.973 1465.1% 1192.2% 1078.0% 473.8% 472.8%   0.0%     --   

显然,只要您一直使用numpy,它比纯Python更快。否则,使用一个集合来加速处理间隔...


1
这不是一个公平的比较。 v3 实际上并没有做任何工作。 您需要将v2与实际构建列表的v3版本进行比较。 - DSM
@DSM:修复了v3以进行公平比较。 - the wolf

0
如果您的数据集不太稀疏,您可以使用"bins"来存储和检索数据。例如:
a = [4,2,1,7,9,4,3,6,8,97,7,65,3,2,2,78,23,1,3,4,5,67,8,100]

# Initalize a list of 0's [0, 0, ...]
# This is assuming that the minimum possible value is 0
bins = [0 for _ in range(max(a) + 1)]  

# Update the bins with the frequency of each number
for i in a:
    bins[i] += 1


def NumbersWithinRange(data, interval):
    result = []
    for i in range(interval[0], interval[1] + 1):
        freq = data[i]
        if freq > 0:
            result += [i] * freq
    return result

这适用于此测试案例:

print(NumbersWithinRange(bins, [4, 20]))
# [4, 4, 4, 5, 6, 7, 7, 8, 8, 9]

为简单起见,在该函数中省略了一些边界检查。

再次强调,这种方法在空间和时间使用方面可能更好,但它严重依赖于您特定的数据集。数据集越不稀疏,它的表现就会越好。


0

我想你正在寻找这样的东西...

b=[i for i in a if 4<=i<90]
print sorted(set(b))
[4, 5, 6, 7, 8, 9, 23, 65, 67, 78]

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接