我想在ARMv7核心上复制一张图片。朴素的实现方式是每行调用memcpy。
for(i = 0; i < h; i++) {
memcpy(d, s, w);
s += sp;
d += dp;
}
我知道下面的内容:
d, dp, s, sp, w
所有的32字节都对齐,因此我的下一个(仍然相当幼稚)实现是沿着这个思路进行的。
for (int i = 0; i < h; i++) {
uint8_t* dst = d;
const uint8_t* src = s;
int remaining = w;
asm volatile (
"1: \n"
"subs %[rem], %[rem], #32 \n"
"vld1.u8 {d0, d1, d2, d3}, [%[src],:256]! \n"
"vst1.u8 {d0, d1, d2, d3}, [%[dst],:256]! \n"
"bgt 1b \n"
: [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
:
: "d0", "d1", "d2", "d3", "cc", "memory"
);
d += dp;
s += sp;
}
在多次迭代中,与memcpy相比,它的速度快了约150%(针对不同图像,因此不能利用缓存)。我觉得这应该远远不是最佳状态,因为我还没有使用预加载,但当我这样做时,性能似乎只会大幅恶化。这里有人有任何见解吗?
w
=dp
=sp
的情况并进行单个memcpy,可以在常见情况下获得巨大的加速。 (或者,使用自定义行复制算法,只需运行一次而不是每行运行)。 - Dan Hulme