查找大整数数组中与布尔查询匹配的子集的算法

Question

查找大整数数组中与布尔查询匹配的子集的算法

arraysalgorithmoptimizationboolean-operations

14

假设我有一个包含M个32位整数的大数组，其中每个值都没有超过N位被设置。现在我想返回与查询Target AND Value == Target匹配的子集，即目标位在数组值中出现过的值。

暴力搜索很容易，只需迭代该数组并提取其中target&value == target的数据。但如果M非常大，则这变得太慢了。是否有想法将该数组转换为更优化的数据结构以进行搜索？

一种方法是为每个位存储数组或值(因此对于32位数组，您需要32个这样的数组)，然后仅搜索与目标值中每个位匹配的值。除非N接近32或目标已设置接近N位，否则这会稍微有所帮助。由于我的要求实际上是部分匹配，哈希或排序似乎并不会有所帮助。

精确的正确结果是必需的。这将不需要访问并行硬件(如GPU或使用SIMD)就能工作。

我将使用C++，但指向算法或思想的指针也可以。最可能的情况是M=100000，N=8，并且经常被调用。

再次强调：我需要部分匹配(例如item = 011000与target = 001000匹配)，而不是完全匹配。虽然M项事先已知，但目标值的可能值可以是任何值。

我最终决定坚持使用暴力搜索。对于80000个项来说，没有必要做其他的事情。我想如果数据集的大小更像是800,000,000，那么可能值得这样做。

- user51511

这是类似于如果目标和值相等，那么值包含目标的位，但反过来不成立吗？你能给出一个目标和值的例子吗？ - Adithya Surampudi

项目在列表中为00011100，目标为00010100，因此目标与项目匹配，但不是所有位。 - user51511

你需要它有多快？我测试了暴力方法，对于M=100,000和N=8，平均得分一直是20毫秒。而且这还是在高级语言中的结果。我想C++应该会更快。下面是我的trie答案，速度慢了大约100倍。 - Jacob Eggers

可能在桌面电脑到移动设备上运行。到目前为止，暴力破解似乎是最快的，这超出了我的预期。 - user51511

5个回答

2

你可以构建一个位字典树。

在遍历字典树时，对于目标中的每个0，您需要遍历两个分支。编辑测试了一个快速实现后，我不建议使用这种方法。暴力方法比这个方法要快大约100倍。

- Jacob Eggers

有趣的是，我记得读过nedtrie。然而，我不明白它如何处理部分匹配。它似乎更适合于查找相似的前缀。 - user51511

当您在目标中遇到零时，需要遍历两个节点。如果目标中有很多零，这可能会导致遍历时间相当长。 - Jacob Eggers

我认为这个想法值得进一步考虑。你可以按照每层2位甚至4位而不是按位级别来分割你的树。这可能会稍微提高速度。所以，如果你有Target = 10 00，那么你将跳过00和01的子节点，但会进入子节点10和11。 - ony

1

这个解决方案将占用与 M 中的 '1' 位数成比例的内存，但应该运行得相当快。我假设集合 M 是静态的，并且有许多目标匹配请求。

预处理：

给定集合 M，按升序排序。接下来构造一个包含每个位的一个插槽的数组。您使用 32 位数字，因此需要一个包含 32 个插槽的数组。将此数组称为：MBit[0..31]。每个插槽包含指向链接列表（称为：MPtr）的指针。链接列表包含 M 中对应位设置的数字。例如，所有具有设置第 3 位的位的 M 中的数字都可以在链接列表中找到：MBit[3].MPtr。

基本算法是处理每个 MBit 列表，其中相应的目标数字设置了 '1' 位。只选择所有已处理列表中的公共数字。由于每个 MPtr 列表都包含排序的数字，因此我们可以向前扫描，直到找到我们要查找的数字（匹配），找到更大的数字（不匹配）或列表耗尽（不可能再有匹配）。

这种方法的主要缺点是，M中相同的数字将出现在与其具有“1”位数相同的许多链接列表中。这会对内存造成一定的压力，但你必须在某个地方做出妥协！

概述：

按照上述步骤构建MBit数组。

为目标数字构建另一个数据结构的数组。该数组包含每个目标位（称之为：TBit [0..31]）的1个插槽。每个插槽包含一个链接列表指针（称之为：MPtr）和一个布尔值（称之为：BitSet）。BitSet指示目标相应的位是否设置。

给定一个新的目标：

/* Initialize each slot of TBit to the head of the corresponding MBit Linked list */
if Target == 0 then goto Done      /* Target contains only zero bits - no matches */
for (i = 0; i < 32; i++) {         /* Bit 0 is LSB, Bit 31 is MSB */
   TBit[i].MPtr = MBit[i].MPtr     /* List of numbers with bit i set */
   TBit[i].BitSet = (Target && 1)  /* Target bit i set? */
   Target = Target >> 1            /* Shift 1 bit right */
}

/* Iterate until one of the linked lists in TBit is exhausted */
for(;;) {
   First1Bit = False          /* Found first '1' bit in Target for this iteration */
   AcceptCandidate = True     /* Assume Candidate number matches all '1' bits in Target */
   for (i = 0; i < 32 & AcceptCandidate; i++) { /* For each bit in TBit Array... */
      if !TBit[i].BitSet then iterate          /* Target bit is zero, nothing to add */
      if !First1Bit then {                     /* First Target '1' bit, initialize for iteration */
         if TBit[i].MPtr == Nil then goto Done /* List exhausted, no more matches possible */
         Candidate = value(TBit[i].MPtr)       /* Candidate Number from linked list */
         TBit[i].MPtr = next(TBit[i].MPtr)     /* setup for next cycle */
         First1Bit = True                      /* First 1 bit for this cycle completed */
      } else {
         /* Scan list until Candidate or larger number found... */
         while (TBit[i].MPtr != Nil & value(TBit[i].MPtr) < Candidate) {
            TBit[i].MPtr = next(TBit[i].MPtr)
         }
         if TBit[i].MPtr = Nil then goto Done  /* List exhausted, no more matches possible */
         AcceptCandidate = (value(TBit[i].MPtr) == Candidate)
      }
   }
   if AcceptCandidate then {
      /* Candidate contains a '1' bit in the same positions Target contains a '1' bit */
      /* Do what you need to do with Candidate */
   }
}
Done: /* No further matches on Target are possible */

我可以看到上述概述中有许多优化，但认为这是一个很好的开始。

- NealB

平均行为可能比原始搜索好一点，但在糟糕的情况下，您仍然可能需要搜索几乎整个项目列表。想象一下1111111111111110111111111111111是目标。 - user51511

这个解决方案可能比暴力破解更差。请考虑如果M个数字均匀分布，每个数字有0.5的概率出现在其中一个插槽中。如果目标模式只包含8位设置，则期望检查的数字数量为4*M，而不是暴力方法的M。 - blubb

@Simon Stelling。好观点。经过反思，我同意，我的上述“解决方案”实际上比问题中给出的“稻草人”暴力方法更糟糕，除非目标只有1个位被设置，然后答案已经预先计算。 - NealB

@codist 给定目标为 1111111111111110111111111111111，只有2个可能的32位整数可以选择 - 需要进行大量过滤才能到达此结果。正如Simon所指出的，我的每个MBit列表将包含来自集合M约一半的数字。因此，如果M包含100000个数字，则我们需要运行平均50000次它们的数量乘以目标中的“1”位数。对于31个“1”位，这将计算出1550000个数字 - 超过集合M的15倍！放弃这个解决方案。 - NealB

0

这似乎是SQL数据库擅长的事情。如果你在（MSB，BitsSet，Value）上放置一个组合索引，你的结果应该非常快。

IntegerList:
    Value INT
    BitsSet INT
    MSB INT

INSERT INTO IntegerList(Value, BitsSet, MSB) VALUES(@Value, GetBitsSet(@Value), GetMSB(@Value)

SELECT Value FROM IntegerList WHERE MSB = GetMSB(@Target) AND BitsSet >= GetBitsSet(@Target) AND (Value & @Target) = @Target

---GetMSB
DECLARE @b BIGINT
DECLARE @c INT
SELECT @b = 0x80000000
SELECT @c = 32
WHILE (@b <> 0)
BEGIN
    IF (@b & @value) = @b
    BEGIN
        RETURN @c
    END
    SELECT @b = @b / 2
    SELECT @c = @c - 1
END

---GetBitsSet
DECLARE @b BIGINT
DECLARE @c INT
SELECT @b = 0x80000000
SELECT @c = 0
WHILE (@b <> 0)
BEGIN
    IF (@b & @value) = @b
    BEGIN
        SELECT @c = @c + 1
    END
    SELECT @b = @b / 2
END
RETURN @c

如果您必须使用纯C ++，我建议尝试模拟SQL方法。

创建一个具有int Value、BitsSet和MSB的结构体或类。

创建两个节点数组，一个按MSB排序，另一个按BitsSet排序。

在MSB（与目标的MSB匹配）数组和BitsSet（匹配所有BitsSet>=目标）数组上使用二分查找。

获取这两个结果的并集，然后执行Target&Value==Target检查。

- Louis Ricci

0

一般方法。

按位构建树。第一级节点是第一位，第二级节点是第二位，...

当您获得掩码时，只需对其取反即可知道要排除树的哪些部分。
然后可以快速遍历仅与相关节点。

N_bits空间解决方案*
只需在原地对这些整数进行排序，并使用二进制搜索来遍历此树。

复杂度为O（N_results * N_bits）

看起来它比暴力O（N）快3倍。但这是我在c ++中的第一个代码，所以我可能错过了什么。关于代码的任何评论也很酷。

代码如何工作？
它使用的唯一数据结构是输入的排序数组。
在每个步骤中，它使用二进制搜索和std::lower_bound();将数组分成两部分，基于bound。
如果mask[depth]为1，则无需进入此树的左侧部分无论如何都必须向右走。

如果您使用像0xFFFFFFFF这样的掩码，它将始终只向右移动，并且在log(n)时间内执行。如果您使用掩码0x00000000，则会返回所有解决方案，因此它将在每个步骤中同时向左和向右移动，并且性能比朴素循环差。一旦数组大小小于10（可以更改），它就使用朴素方法在输出向量中返回所有解决方案。

在长度为100k的随机输入向量和掩码0x11111111（8位）上，它的运行速度比朴素循环快两倍。

#include <iostream>
#include <algorithm>
#include <vector>
using namespace std;

void find_masks(const int mask,const int bound,const int depth,const vector<int>::iterator begin,const vector<int>::iterator end, vector<int> &output )
{
    vector<int>::iterator i,split;
    if( ( distance(begin,end)<10 ) | (depth==0) ) //if less than 10 we just bruteforce it is also stopping condition
    {
        for(i=begin; i!=end; i++)
        {
            if(mask == (int)(mask & (*i)))
            {
                output.push_back(*i);
            }
        }
        return;
    }

    int bitmask =  (1<<depth) ;
    split=lower_bound(begin,end,bound | bitmask );

    if( !(mask & bitmask) ) //go left if mask == 0 at this point
    {
        find_masks(mask,bound,depth-1,begin,split, output );
    }
    find_masks(mask,bound | bitmask ,depth-1,split, end, output );
}


int main ()
{
    vector<int> result,v,bruteforce;
    vector<int>::iterator i;

    //100k random vector
    for(int i=0; i<100000; i++)
    {
        int r=0;
        for(int j=0; j<4; j++)
        {
            r=r<<8;
            r=r^rand();
        }
        v.push_back(r);
    }

    sort(v.begin(),v.end());

    int mask=0xF0F;
    //use sorted vector and binary search for traversing tree
    find_masks(mask,0,31,v.begin(),v.end(), result );

    //use naive loop
    bruteforce.erase(bruteforce.begin(),bruteforce.end());
    for(i=v.begin(); i!=v.end(); i++)
    {
        if(mask == (int)(mask & (*i)))
        {
            bruteforce.push_back(*i);
        }
    }

    cout<<"n solutions binary search " << distance(result.begin(),result.end())<<endl;
    cout<<"n solutions loop "  << distance(bruteforce.begin(),bruteforce.end())<<endl;
    cout<<"are solutions same => " << equal(result.begin(),result.end(),bruteforce.begin());

    return 0;
}

- Luka Rahne

有趣的解决方案，但是它不需要2^32个树节点吗？[每个位都有一个分支因子为2，所以总共有2^32个节点]。 - amit

这也是我的第一个想法... 直到我计算了树的大小。 - NealB

重点是，与其构建树形结构，你只需使用已排序的整数数组，并利用二分搜索算法遍历这个“树”。 - Luka Rahne

这并不是精确匹配，只是代码以这种方式运行，请用类似1的东西替换掩码。如果掩码设置了很多位并且解决方案的数量很少，则性能非常好。但在其他情况下则很差。 - Luka Rahne

是的，这将通过为lower_bound获取额外的ticks来节省空间。我还要补充的是，对于大多数最高有效位设置为1的情况，它将工作得更好。也就是说，在更高的数字位上有一位将排除搜索树的一半，但在较低的数字位上有一位将导致许多路径到达该位，并且可能会将它们全部分成两半。 - ony

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ony · Accepted Answer

如何从另一个角度看待这个问题呢？将整数集合视为一维图片的集合。将每张图片分成两部分A和B，并按以下类别排序，是一种组织它们的方式：

A仅包含零，B包含设置了一些位（至少有一个）
A包含设置了一些位，B仅包含零
A和B都包含设置了一些位（1和2的超集）
A和B都仅包含零

现在，您可以将目标/掩码进行相同的拆分，按照相同的方式分类。之后，您可以根据目标/掩码类别推断出下一个结果：

您可以跳过来自类别2和4的图片
您可以跳过来自类别1和4的图片
您可以跳过类别4的图片
所有图片都与此目标/掩码匹配

接下来，将部分A和B再次拆分（因此您有4个部分），以此类推。

当然，我不希望它能够加速。但对于某些数据集，其中设置的位数不多（与基于位的树相反），它可能效果更好。更新:我在Haskell变体中获得了34％的加速。

    benchmarking burte-force list search
    mean: 14.67350 ms, lb 14.65103 ms, ub 14.71614 ms, ci 0.950
    std dev: 153.6920 us, lb 95.70642 us, ub 246.6497 us, ci 0.950

    benchmarking tree-lookup search
    mean: 9.592271 ms, lb 9.564509 ms, ub 9.667668 ms, ci 0.950
    std dev: 216.6084 us, lb 100.3315 us, ub 455.2730 us, ci 0.950

源代码：

{-# LANGUAGE GeneralizedNewtypeDeriving #-}
{-# LANGUAGE TypeFamilies #-}
{-# LANGUAGE FlexibleContexts #-}
{-# LANGUAGE UndecidableInstances #-}

import Control.Arrow (first)
import Control.DeepSeq
import Data.Word
import Data.Bits
import Data.List

import Criterion.Main
import Criterion.Config
import System.Random

class BitmapsCollection a where
    type BitmapOf a
    bitmapsCollection :: [BitmapOf a] -> a
    findMaskedPattern :: a -> BitmapOf a -> [BitmapOf a]

-- Plain lookup through array
newtype BitmapsList p = BitmapsList [p]
    deriving (Show, NFData)

instance Bits p => BitmapsCollection (BitmapsList p) where
    type BitmapOf (BitmapsList p) = p
    bitmapsCollection = BitmapsList
    findMaskedPattern (BitmapsList xs) m = filter (\e -> e .&. m == m) xs

-- Tree of bitmap partitions
data Bits p => BitmapsCoverTree p = EmptyBitmapsCoverNode
                                  | BitmapsCoverNode (p,p) (BitmapsCoverTree p) (BitmapsCoverTree p) [p] [p]
                                  | LeafBitmapsCoverNode [p]
    deriving Show

instance (Bits p, NFData p) => NFData (BitmapsCoverTree p) where
    rnf EmptyBitmapsCoverNode = ()
    rnf (LeafBitmapsCoverNode xs) = rnf xs
    rnf (BitmapsCoverNode mask node1 node2 category3 category4) = mask `deepseq` node1 `deepseq` node2 `deepseq` category3 `deepseq` rnf category4

data BitmapCoverCategory = CoverA | CoverB | CoverAB | CoverZero

coverCategory :: Bits a => (a, a) -> a -> BitmapCoverCategory
coverCategory (maskA, maskB) x = case (x .&. maskA, x .&. maskB) of
                                     (0, 0) -> CoverZero
                                     (0, _) -> CoverB
                                     (_, 0) -> CoverA
                                     _ -> CoverAB

coverCategorize :: Bits a => (a, a) -> [a] -> ([a], [a], [a], [a])
coverCategorize mask = walk (id, id, id, id) where
    category = coverCategory mask
    walk (a, b, ab, z) [] = (a [], b [], ab [], z [])
    walk (a, b, ab, z) (x:xs) = case (category x) of
                                    CoverA -> walk (a . (x:), b, ab, z) xs
                                    CoverB -> walk (a, b . (x:), ab, z) xs
                                    CoverAB -> walk (a, b, ab . (x:), z) xs
                                    CoverZero -> walk (a, b, ab, z . (x:)) xs

suffixMask, prefixMask :: Bits a => Int -> a
suffixMask n = complement 0 `shiftL` n
prefixMask n = complement (suffixMask n)

rangeMask :: Bits a => (Int, Int) -> a
rangeMask (n, m) = suffixMask n .&. prefixMask m

instance Bits p => BitmapsCollection (BitmapsCoverTree p) where
    type BitmapOf (BitmapsCoverTree p) = p
    bitmapsCollection bms = buildCoverNode (0, bitSize (head bms)) bms where
        splitBoundary = 4
        buildCoverNode :: Bits a => (Int, Int) -> [a] -> BitmapsCoverTree a
        buildCoverNode _ [] = EmptyBitmapsCoverNode
        buildCoverNode (n, m) xs | (m - n) < splitBoundary = LeafBitmapsCoverNode xs -- too small
        buildCoverNode (n, m) xs = BitmapsCoverNode mask node1 node2 category3 category4 where
            mm = (n+m) `div` 2

            mask = (rangeMask (n, mm), rangeMask (mm, m))

            (category1, category2, category3, category4) = coverCategorize mask xs

            node1 = buildCoverNode (n, mm) category1
            node2 = buildCoverNode (mm, m) category2

    findMaskedPattern EmptyBitmapsCoverNode _ = []
    findMaskedPattern (LeafBitmapsCoverNode ps) m = filter (\e -> e .&. m == m) ps

    findMaskedPattern (BitmapsCoverNode _ node1 node2 category3 category4) 0 = flatten where
        flatten = findMaskedPattern node1 0 ++ findMaskedPattern node2 0 ++ category3 ++ category4

    findMaskedPattern (BitmapsCoverNode mask node1 node2 category3 category4) m = result where
        targetCategory = coverCategory mask m
        filterTarget = filter (\p -> p .&. m == m)
        result = case targetCategory of
                     CoverA -> findMaskedPattern node1 m ++ filterTarget category3
                     CoverB -> findMaskedPattern node2 m ++ filterTarget category3
                     CoverAB -> filterTarget category3
                     CoverZero -> category1 ++ category2 ++ category3 ++ category4

        category1 = findMaskedPattern node1 0
        category2 = findMaskedPattern node2 0


main = do
    gen <- getStdGen
    let size = 1000000
        bitmaps :: [Word32]
        (bitmap, genm) = first fromIntegral (random gen :: (Int, StdGen))
        bitmaps = map fromIntegral (take size (randoms genm) :: [Int])
        bitmapsList = bitmapsCollection bitmaps :: BitmapsList Word32
        bitmapsTree = bitmapsCollection bitmaps :: BitmapsCoverTree Word32

    bitmapsList `deepseq` bitmapsTree `deepseq` return ()

    defaultMainWith defaultConfig (return ()) [
        bench "burte-force list search" $ nf (findMaskedPattern bitmapsList) bitmap,
        bench "tree-lookup search" $ nf (findMaskedPattern bitmapsTree) bitmap
        ]

更新：这是一段C++11代码。对于暴力算法，它需要10.9444毫秒；而对于此算法，只需要8.69286毫秒。我通过使打开的位的分布输出更加稀疏来作弊。

#include <iostream>
#include <vector>
#include <list>
#include <random>
#include <functional>
#include <cassert>
#include <memory>


#include <sys/time.h>
#include <sys/resource.h>

// benchmark boiler plate code
double cputime()
{
    struct rusage usage;
    int check = getrusage( RUSAGE_SELF, &usage );
    assert(check == 0);
    return (usage.ru_utime.tv_sec + usage.ru_utime.tv_usec*1.0e-6);
    //return (((double)clock())/((double)CLOCKS_PER_SEC));
}

double measure(std::function<void()> func, size_t iterations)
{
    double t1, t2;
    size_t i;
    t1 = cputime();
    for(i = 0; i < iterations; ++i) func();
    t2 = cputime();
    return (t2 - t1);
}

std::pair<std::string, double> human(double value)
{
    static const std::vector<std::pair<std::string, double>> prefixes = {
        { "pico",  1e-12 },
        { "nano",  1e-9  },
        { "micro", 1e-6  },
        { "milli", 1e-3  },
        { "",      1     },
        { "kilo",  1e3   },
        { "mega",  1e6   },
        { "giga",  1e9   },
        { "tera",  1e12  }
    };

    for(auto it = prefixes.begin(); it != prefixes.end(); ++it)
    {
        if (it->second > value) 
        {
            auto prev = *(--it);
            return std::pair<std::string, double>(prev.first, value/prev.second);
        }
    }
    auto last = *prefixes.rbegin();
    return std::pair<std::string, double>(last.first, value/last.second);
}

void bench(std::string name, std::function<void()> func, double bench_seconds = 10)
{
    const double accurate_seconds = 0.1;

    std::cout << "benchmarking " << name << std::endl
              << "estimating iterations" << std::endl;
    size_t base_iterations = 1;
    double base_seconds = measure(func, base_iterations);
    while(base_seconds < accurate_seconds)
    {
        base_iterations *= 2;
        base_seconds = measure(func, base_iterations);
    }

    const size_t iterations = bench_seconds * base_iterations / base_seconds;
    const double estimated_seconds = iterations * base_seconds / base_iterations;
    std::cout << "estimated time " << estimated_seconds << " seconds (" << iterations << " iterations)" << std::endl;

    const double seconds = measure(func, iterations);
    const auto ips = human(iterations / seconds);
    const auto spi = human(seconds / iterations);
    std::cout << "benchmark took " << seconds << " seconds" << std::endl
              << "average speed " << ips.second  << ' ' << ips.first << " iterations per second" << std::endl
              << "average time " << spi.second << ' ' << spi.first << " seconds per iteration" << std::endl;
}

// plain brute-force lookup
template<class iterator>
std::list<typename iterator::value_type> brute_lookup(const typename iterator::value_type pattern, iterator begin, const iterator &end)
{
    typedef typename iterator::value_type value_type;
    std::list<value_type> result;

    for(;begin != end; ++begin)
    {
        if ((*begin & pattern) == pattern) result.push_back(*begin);
    }

    return result;
}

// tree-traversing lookup

template<class _value_type>
struct cover_node
{
    typedef _value_type value_type;

    value_type mask_a, mask_b;
    std::auto_ptr<cover_node<value_type>> node_a, node_b;
    std::vector<value_type> category_ab, category_zero;
};


template<class _value_type>
std::ostream &pprint(std::ostream &s, const std::auto_ptr<cover_node<_value_type>> &node, const std::string indent = "")
{
    if (!node.get())
    {
        s << indent << "cover_node: (null)" << std::endl;
        return s;
    }

    s << indent
      << "cover_node: mask = " << std::hex << node->mask_a << "/" << node->mask_b
      << ", leafs = " << std::dec << node->category_ab.size() << "/" << node->category_zero.size() << std::endl;

    const std::string sub = indent + "  ";
    pprint(s, node->node_a, sub);
    return pprint(s, node->node_b, sub);
}

enum class cover_category { a, b, ab, zero };

template<class vt>
cover_category
identify_cover(const vt mask_a, const vt mask_b, const vt x)
{
    const auto a = (x & mask_a) != 0;
    const auto b = (x & mask_b) != 0;

    if (!a)
    {
        if (!b) return cover_category::zero;
        else return cover_category::b;
    }
    else
    {
        if (!b) return cover_category::a;
        else return cover_category::ab;
    }
}

template<class vt>
vt bitmask(const size_t n, const size_t m)
{
    return (~0 << n) & ~(~0 << m);
}

template<class iterator>
std::auto_ptr<cover_node<typename iterator::value_type>>
build_cover_node(size_t n, size_t m, iterator begin, const iterator &end)
{
    const size_t split_boundary = 4;

    typedef typename iterator::value_type value_type;
    std::auto_ptr<cover_node<value_type>> node(new cover_node<value_type>);

    if ((m - n) < split_boundary) // too small group
    {
        // overlapped mask for simplification of sub-tree into list
        node->mask_a = ~0;
        node->mask_b = ~0;
        node->category_ab.insert(node->category_ab.end(), begin, end);
        return node;
    }

    std::list<value_type> category_a, category_b;

    const size_t h = (n + m) / 2;

    node->mask_a = bitmask<value_type>(n, h);
    node->mask_b = bitmask<value_type>(h, m);
    auto &category_ab = node->category_ab;
    auto &category_zero = node->category_zero;

    // categorize
    for(;begin != end; ++begin)
    {
        switch(identify_cover(node->mask_a, node->mask_b, *begin))
        {
        case cover_category::a:
            category_a.push_back(*begin);
            break;
        case cover_category::b:
            category_b.push_back(*begin);
            break;
        case cover_category::ab:
            category_ab.push_back(*begin);
            break;
        case cover_category::zero:
            category_zero.push_back(*begin);
            break;
        }
    }

    // build sub-nodes
    if (!category_a.empty()) node->node_a = build_cover_node(n, h, category_a.begin(), category_a.end());
    if (!category_b.empty()) node->node_b = build_cover_node(h, m, category_b.begin(), category_b.end());

    return node;
}

template<class _value_type>
struct cover_walker
{
    typedef _value_type value_type;
    typedef cover_node<value_type> node_type;

    cover_walker(value_type target_pattern, const node_type &root_node) :
        target(target_pattern)
    { 
        walk(root_node);
    }

    const std::list<value_type> &get_result() const
    {
        return result;
    }

private:
    value_type target;

    std::list<value_type> result;

    template<class Container>
    void filtered_add(const Container &xs)
    {
        for(auto it = xs.begin(); it != xs.end(); ++it)
        {
            const auto &x = *it;
            if ((x & target) == target) result.push_back(x);
        }
    }

    template<class Container>
    void add(const Container &xs)
    {
        result.insert(result.end(), xs.begin(), xs.end());
    }

    void flatout(const node_type &node)
    {
        if (node.node_a.get()) flatout(*node.node_a);
        if (node.node_b.get()) flatout(*node.node_b);
        add(node.category_ab);
        add(node.category_zero);
    }

    void walk(const node_type &node)
    {
        const auto &mask_a = node.mask_a;
        const auto &mask_b = node.mask_b;

        if (mask_a == mask_b)
        {
            filtered_add(node.category_ab);
            return;
        }

        switch(identify_cover(mask_a, mask_b, target))
        {
        case cover_category::a:
            if (node.node_a.get()) walk(*node.node_a);
            filtered_add(node.category_ab);
            break;

        case cover_category::b:
            if (node.node_b.get()) walk(*node.node_b);
            filtered_add(node.category_ab);
            break;

        case cover_category::ab:
            filtered_add(node.category_ab);
            break;

        case cover_category::zero:
            flatout(node);
            break;
        }
    }

};


int main()
{
    std::mt19937 rng;
    std::uniform_int_distribution<uint32_t> uint_dist;

    const auto bitmap = uint_dist(rng);
    //const uint32_t bitmap = 0;

    std::vector<uint32_t> bitmaps;
    bitmaps.resize(10000000);

    //for(auto it = bitmaps.begin(); it < bitmaps.end(); ++it) *it = uint_dist(rng);
    for(auto it = bitmaps.begin(); it < bitmaps.end(); ++it) *it = uint_dist(rng) & uint_dist(rng) & uint_dist(rng); // sparse

    const auto brute = [&bitmaps, bitmap](){
        brute_lookup(bitmap, bitmaps.begin(), bitmaps.end());
    };

    std::auto_ptr<cover_node<uint32_t>> cover_tree = build_cover_node<std::vector<uint32_t>::const_iterator>(0, 32, bitmaps.begin(), bitmaps.end());
    pprint(std::cout, cover_tree);

    const auto traversal = [&cover_tree, bitmap]() {
        cover_walker<uint32_t>(bitmap, *cover_tree).get_result();
    };

    bench("brute-force array search", brute);
    bench("tree-traversal search", traversal);


    return 0;
}