44得票11回答
什么是返回64位整数中所有设置位的位置最快的方法?

我需要一种快速获取64位整数中所有位为1的位置的方法。例如,给定x = 123703,我想填充一个数组idx[] = {0, 1, 2, 4, 5, 8, 9, 13, 14, 15, 16}。我们可以假设我们事先知道位数。这将被称为1012 - 1015倍,因此速度至关重要。到目前为止,我想...

12得票4回答
与英特尔Xeon Phi和Nvidia Tesla K20相比的基准测试

令人惊讶的是,我无法找到使用开源OpenCL基准套件(例如rodinia和SHOC)对这些产品进行比较的内容。这样的比较可能比理论峰值性能或简单矩阵乘法内核的性能比较更有趣。 是否有人知道此类结果可能在哪里可以找到?如果找不到,是否有任何stackoverflow用户可以访问其中一个或两个产...

12得票3回答
在Knights Landing上,清除单个或几个ZMM寄存器的最有效方法是什么?

假设我想清空4个 zmm 寄存器。 以下代码是否能提供最快的速度?vpxorq zmm0, zmm0, zmm0 vpxorq zmm1, zmm1, zmm1 vpxorq zmm2, zmm2, zmm2 vpxorq zmm3, zmm3, zmm3 在AVX2上,如果我想清除y...

9得票2回答
Fast popcount on Intel Xeon Phi

我正在Intel Xeon® Phi®上实现超快的popcount,因为它是各种生物信息学软件的性能热点。 我已经实现了五个代码片段。 #if defined(__MIC__) #include <zmmintrin.h> __attribute__((align(64))) ...

8得票1回答
如何使用GCC 5.1和OpenMP将工作转移至Xeon Phi

背景 我们一直在尝试使用新的GCC 5.1版本将OpenMP块转移到Intel MIC(即Xeon Phi)。根据GCC Offloading页面,我们编写了build.sh脚本来为“intelmic”和主机编译器构建“accel”目标编译器。编译似乎已经成功完成。 然后,使用env.sh...

8得票1回答
为什么英特尔编译器在处理英特尔MIC时会忽略非暂存预取指示符?

英特尔编译器在使用a_ptr指针访问数组时,在循环内生成以下预取指令: 400e93: 62 d1 78 08 18 4c 24 vprefetch0 [r12+0x80] 如果我手动更改(通过十六进制编辑可执行文件)以进行非临时预取,则如下: 400e93: ...

8得票1回答
如何使用C#编程Intel Xeon Phi?

我是一名具有一些C++经验的C#程序员,所有的工作都在Windows上完成。 基于这个技能集,是否有开发适用于Intel Xeon Phi处理器的选项? 我找到了这个链接,但不确定这是否是最好/唯一的方法。 感谢您的建议。

8得票3回答
使用Xeon Phi与基于JVM的语言

能否使用基于JVM的语言,如Scala,使用Xeon Phi?有没有示例?