Intel TBB的可扩展分配器如何工作？

Question

Intel TBB的可扩展分配器如何工作？

32

在 Intel Threading Building Blocks 中，tbb::scalable_allocator 到底是怎么工作的呢？它确实非常有效。我曾经只改变一个std::vector<T>为std::vector<T,tbb::scalable_allocator<T> >，就将某个应用程序的执行时间缩短了25%（并且在4核系统上看到CPU利用率从约200%提高到350%）。但在另一个应用程序中，它却使内存使用量大增，并将一些东西送入交换空间。

Intel 自己的文档并没有透露太多信息（例如这个FAQ结尾的一个简短章节）。在我自己查看其代码之前，有人能告诉我它使用了哪些技巧吗？

更新：我第一次使用 TBB 3.0，看到了我迄今为止使用 scalable_allocator 取得的最佳加速效果。只是将一个vector<int>改为vector<int,scalable_allocator<int> >，就将某个东西的运行时间从85秒减少到35秒（在 Debian Lenny、Core2 和来自测试的 TBB 3.0 上）。

- timday

2个回答

3

您提到的解决方案是为英特尔CPU进行了优化。它采用了特定的CPU机制以提高性能。

不久前，我发现另一个非常有用的解决方案：适用于STL容器的快速C++11分配器。它可以轻微地加速VS2017（~5倍）和GCC（~7倍）上的STL容器。它使用内存池来分配元素，这使得它对所有平台都非常有效。

- no one special

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Amit Kumar · Accepted Answer

有一篇关于分配器（allocator）的好论文：Intel Threading Building Blocks中可扩展多核软件的基础

我的经验有限：我在我的AI应用程序中使用了tbb::scalable_allocator重载全局new/delete。但时间分析图表上几乎没有变化。虽然我没有比较过内存使用情况。