具有忽略某些集合能力的N个集合的最大交集(集合压缩)

8

假设您有N组未排序的字符,并且这些集合之间有共同的字符。我想从这些集合中分解出尽可能多的字符,使它们变小。但是在分解字符时有一个限制:这些字符必须在您从N中选择的M个集合的交集中。这是一种无损集合压缩算法。下面的示例是有序集合,但这只是为了方便阅读。不要假设集合将被排序。

一个简单的例子:

S1 = a b c d
S2 = a b c e f
S3 = a f g

答案是只需要相交S1和S2并因式分解:a b c。这样可以减少6个字符,而其他任何集合的相交组合都会少一些。
一个棘手的例子:
S1 = a b c d e f g h i
S2 = j k l m n
S3 = j k l o p q
S4 = j k l
S5 = a b c d

答案是忽略集合S1和S5,取余下集合S2、S3和S4的交集,即为:j k l。
之所以a b c d不正确,是因为将这些字符从集合中推出后,仍剩下19个字符;而当推出j k和l时,只剩下18个字符。
是否有算法能够比指数时间更快地解决这类问题?如果只有3个集合,似乎需要测试集合幂集({},{S1},{S2},{S3},{S1,S2},{S1,S3},{S2,S3},{S1,S2,S3})的8个交集来计算。
附注:这不是一个紧急的问题,但我认为这是一个有趣的问题。

嗯,我不太清楚应该在什么条件下取交集,在你的第二个例子中,如果我们只是做两个交集会更好吗? - Pham Trung
@JanneKarila是正确的。我会存储公共交集和需要与公共交集组合以获取原始集合的索引列表。 - Kyle Paulsen
@PhamTrung 是的,这是正确的,做两个交集会更好。但是为了问题的简单起见,假设我们只允许对M个集合执行一次交集。 - Kyle Paulsen
我目前还没有答案,但可以将其视为一个搜索问题。我应该将哪个字母移动到公共集合中呢?显然,爬山算法行不通。这种思考方式可能会导致一种可接受的启发式算法。这就是我目前所知道的全部内容。 - Topological Sort
我可以假设只有小写字符吗? - shole
显示剩余3条评论
1个回答

2
如果字母表大小不太大...我会使用动态规划来解决这个问题...运行时间应该是O(S*2^n),其中S = 集合数量,n = 字母表数量。
定义DP(i, bitmask)为使用此位掩码在集合0到集合i中任何子集中可以取消的最大字符数。
例如,现在我们有3个集合和5个字母{a,b,c,d,e}。
尝试使用0-1位来掩盖每个集合:
S0 = {a,d,e},S1 = {b,c,e},S2 = {a,c,e}
S0 = 11001 = 25,S1 = 10110 = 22,S2 = 10101 = 21
总共有2^5种不同的可能掩码,在计算DP(i, bitmask)时我们将循环遍历所有掩码。
现在初始化DP(0, x)(即简单地填充x的1位数),并使用以下转换来填充i > 0的DP(i,x):

DP(i, x) = DP(i-1,x) + {x的二进制表示中1的个数,如果(Si & x == x); 否则为0} Si是集合i的位掩码,&是按位与操作

答案是所有DP(S-1, x)中的最大值

如果有许多解,则此方法可以找到所有可能的解。以下是用C++编写的解决上述示例的示例代码:

#include<cstdio>
#include<cstdlib>
#include<algorithm>
using namespace std;

int s[3] = {25,22,21};
int dp[5][1<<5] = {0};

int bits(int x){
    int cnt = 0;
    while(x){ cnt += (x&1); x>>=1;}
    return cnt;
}

int main() {
    for(int i=0; i< (1<<5); i++) if((s[0]&i) == i){ dp[0][i] = bits(i); }

    for(int i=1; i<3;i++)
        for(int j=0; j< (1<<5); j++){
            dp[i][j] = dp[i-1][j];
            if((s[i]&j) == j) {dp[i][j] = max(bits(j), dp[i-1][j]+ bits(j));      }
        }


    int x = -1;
    for(int i=0; i< (1<<5); i++){
        x = max(x, dp[2][i]);
        printf("Maximum cancelled: %d,  current DP: %d, bitmask: %d\n", x, dp[2][i], i);
    }
    return 0;
}

每当 DP 状态的输出等于最大取消数量时,其位掩码就是相应的解决方案,你可以轻松地转换回英文字符,即在上面的示例中为 {c,e} 或 {a,e}。
编辑: 为了回复下面的评论,我尝试在这里逐部分回答:
问题1:它仍然是指数级的吗?只有从指数级转移到设置传输到字母的数量?
答案1:是的。我之所以这样认为,是因为我认为实际上字母表的大小不会太大...但从理论上讲,它仍然是指数时间。
问题2:这个问题是 NP 完全的吗?
答案2:好吧,这是有趣的部分,以下是我的想法,如果我错了,请纠正我,我认为是 NP 完全的。我的想法是将这个问题建模成一个图问题,见下图(请原谅我的糟糕的 mspaint 技能):
我们有一个二分图,并且与您最初的问题相同,我们现在想找到最大完全子图——这是一般图中的,这是一个众所周知的NP完全问题。
然后我想,它是一个二分图!也许二分图中的团不是NP完全的,但多亏了谷歌,我发现了另一个问题完全二分图并关注页面上的第一个属性:
给定一个二分图,测试是否包含参数i的完全二分子图Ki,i是一个NP完全问题。
总之,我认为这是NP-Complete Q3. 如何想出这样的DP解决方案?
A3. 结合A1,许多NPC问题实际上有一个“伪多项式解法”,而O(x * 2^y)是我所知道的相当常见的形式,例如哈密顿回路,可以在O(n^2 * 2^n)中解决。作为额外的提示,如果你问我自己,当考虑这个DP解决方案时,我也有类似背包问题的想法...但那与你的问题有点无关...

这是一个非常聪明的解决方案,但是这还是指数时间吗?我猜你将限制因素从集合数量移动到了字母表中字符的数量。无论如何,我想知道是否有一种解决方案适用于任意数量的集合和任意数量的字母表中的字符,可以打败指数时间。我猜答案是否定的,而且这个问题可以归约为其他NP-完全问题。 - Kyle Paulsen

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接