我有一个元素如下的std向量:
[0 , 1 , 2 , 0 , 2 , 1 , 0 , 0 , 188 , 220 , 0 , 1 , 2 ]
如何高效地查找并复制此向量中仅出现一次的元素,而又不使用 O(n^2) 的暴力算法?在此情况下,新列表应包含 [188, 220]
。
我有一个元素如下的std向量:
[0 , 1 , 2 , 0 , 2 , 1 , 0 , 0 , 188 , 220 , 0 , 1 , 2 ]
如何高效地查找并复制此向量中仅出现一次的元素,而又不使用 O(n^2) 的暴力算法?在此情况下,新列表应包含 [188, 220]
。
unordered_map<DataType, Count> count;
count[value]++;
count
哈希表,在值等于1时复制键。时间复杂度为O(n)
。使用哈希表,对于小数据集,通常使用标准哈希表可能更有效率,但从技术上讲它是O(n log n)
。
这是一种处理离散数据集的好方法。
代码示例:
#include <iostream>
#include <unordered_map>
#include <vector>
#include <algorithm>
using namespace std;
int main() {
vector<int> v{1,1,2,3,3,4};
unordered_map<int,int> count;
for (const auto& e : v) count[e]++;
vector<int> once;
for (const auto& e : count) if(e.second == 1) once.push_back(e.first);
for (const auto& e : once) cout << e << '\n';
return 0;
}
我已经尝试了一些想法。但是我看不到绕过map
的方法。unordered_multiset
几乎是一个很好的方式......除非它不允许你遍历键,它有一个检查键计数的方法,但是你需要另一个集合来探测键。在现代C++中,使用auto
进行计数很容易。我也查看了algorithm
库,但是我没有找到任何transform
、copy_if
、generate
等条件转换元素(映射条目 -> 值,如果计数为1)的方法。
std
中的distinct
等效项。或者你是指过滤器?我猜可以过滤计数映射,但它不会返回原始类型。 - luk32std::set
在这里实际上很适合。 - Brian Rodriguez通用最优算法很少。哪种算法最适合通常取决于正在处理的数据的属性。去重就是一个这样的例子。
v
很小并且大部分填充了唯一值,是这样吗?
auto lo = v.begin(), hi = v.end();
std::sort(lo, hi);
while (lo != v.end()) {
hi = std::mismatch(lo + 1, v.end(), lo).first;
lo = (std::distance(lo, hi) == 1) ? hi : v.erase(lo, hi);
}
v
是否很小且主要由重复内容填充?
auto lo = v.begin(), hi = v.end();
std::sort(lo, hi);
while (lo != v.end()) {
hi = std::upper_bound(lo + 1, v.end(), *lo);
lo = (std::distance(lo, hi) == 1) ? hi : v.erase(lo, hi);
}
< p > v
是否是巨大的?
std::unordered_map<int, bool> keyUniqueness{};
keyUniqueness.reserve(v.size());
for (int key : v) {
bool wasMissing = keyUniqueness.find(key) == keyUniqueness.end();
keyUniqueness[key] = wasMissing;
}
v.clear();
for (const auto& element : keyUniqueness) {
if (element.second) { v.push_back(element.first); }
}
And so on.
unordered_map
的摊销成本。你应该记住,在O(1)
前面可能会有一些巨大的常数,使其比这些方法更慢。算法几乎从来不是黑白分明的优劣。它将取决于正在处理的数据类型。例如:对于小列表,冒泡排序比快速排序更快! - Brian Rodriguez由于您使用了 std::vector
,我推测您想最大化其所有好处,包括参考局部性。为了做到这一点,我们需要在这里打一些字。我对下面的代码进行了基准测试...
我有一个线性的O(n)
算法(实际上是O(nlog(n))
),它有点像brian的答案,但我使用OutputIterators而不是原地操作。前提条件是已排序。
template<typename InputIterator, typename OutputIterator>
OutputIterator single_unique_copy(InputIterator first, InputIterator last, OutputIterator result){
auto previous = first;
if(previous == last || ++first == last) return result;
while(true){
if(*first == *previous)
while((++first != last) && (*first == *previous));
else
*(result++) = *previous;
if(first == last) break;
previous = first;
++first;
}
return ++result;
}
这里是一个示例用法:
int main(){
std::vector<int> vm = {0, 1, 2, 0, 2, 1, 0, 0, 1, 88, 220, 0, 1, 2, 227, -8};
std::vector<int> kk;
std::sort(vm.begin(), vm.end());
single_unique_copy(vm.begin(), vm.end(), std::back_inserter(kk));
for(auto x : kk) std::cout << x << ' ';
return 0;
}
-8, 88, 220, 227
你的使用情况可能与我的不同,因此首先要进行配置文件... :-)
编辑:
i % 5
处重复。9.34
秒,我的: 7.80
秒2.71
秒,我的: 0.52
秒对于较小的数字,差异仍然存在,直到它成为非关键代码
@luk32的回答绝对是解决这个问题最省时间的方法。然而,如果你的内存不足以承受一个unordered_map
,还有其他的方法。
你可以使用std::sort()
先对向量进行排序。然后在一次迭代中就可以找到非重复项。总体复杂度为O(nlogn)
。
如果问题稍有不同,并且你知道只有一个非重复元素,你可以使用this code(Java代码)。这里的复杂度是O(n)
。
unordered_map
是一个很好的解决方案。但如果数量较小,则有更高效的处理数据的方法。 - Brian Rodriguezunordered_map
绝对是最好的方法。但是我想再提供两种解决方案,以防用户由于某些原因无法使用其他数据结构。这种情况可能会在面试问题中出现。我记得我曾被问到一个面试问题,要求我实现一个可以跟踪其最大值的堆栈。我也只能将值本身推入堆栈中,这让我措手不及。 - SegFault