子字符串可以是长度为1、2、3...的一段字符。 我尝试解决的问题是找到出现次数最多的子字符串。因此,这基本上可以分解为查找具有最大频率的字符。 然而,我发现可以使用后缀树在O(n)时间内找到最长重复的子字符串。 但是,后缀树返回子字符串时优先考虑其长度。 我想要找到出现次数最多的子字符串,并从这些子字符串中找到最长的一个。 例如:
In the following string: ABCZLMNABCZLMNABC
A suffix tree will return ABCZLMN as the longest repeating substring.
However, what I am looking for is ABC; as it is the longest out of all the ones having frequency = 3.
我尝试通过生成位于两个索引i和j之间的子字符串来解决这个问题。然后,使用运行时间为O(n)的Z算法在每种情况下找到这些子字符串的出现次数。然而,总复杂度为O(n^3)。
我的O(n^3)代码
map<ll,vector<string>> m;
string s; cin >> s;
for(ll i=0;i<s.length();i++){
string c;
for(ll len=0; i+len<s.length();len++){
c+=s[i+len];
ll z[N];
ll l=0,r=0;
string kk;
for(ll p=0;p<c.length();p++){
kk+=c[p];
}
kk+="#";
for(ll p=0;p<s.length();p++){
kk+=s[p];
}
for(ll k=1;k<kk.length();k++){
if(k>r){
l=r=k;
while(r<c.length()&&kk[r-l]==kk[r])r++;
z[k]=r-l;
r--;
}
else{
ll m=k-l;
if(z[m]<r-k+l)z[k]=z[m];
else{
l=k;
while(r<c.length()&&kk[r-l]==kk[r])r++;
z[k]=r-l;
r--;
}
}
}
ll occ=0;
for(ll n=0;n<kk.length();n++){
if(z[n]==c.length())occ++;
}
m[occ].push_back(c);
}
}
我找不到适合的解决方案来提高效率。 请帮忙。 谢谢。