使用NEON优化RGBA8888到RGB565的转换

8

我正在尝试使用NEON向量指令集在iOS上优化图像格式转换。我认为这应该很适合,因为它可以处理一堆类似的数据。

然而,我的尝试并不顺利,与朴素的c实现相比,只能获得微小的加速:

for(int i = 0; i < pixelCount; ++i, ++inPixel32) {
    const unsigned int r = ((*inPixel32 >> 0 ) & 0xFF);
    const unsigned int g = ((*inPixel32 >> 8 ) & 0xFF);
    const unsigned int b = ((*inPixel32 >> 16) & 0xFF);
    *outPixel16++ = ((r >> 3) << 11) | ((g >> 2) << 5) | ((b >> 3) << 0);
}

iPad 2 上的 1 百万像素图像数组:

格式为 [最小值 平均值 最大值 n=计时样本数],单位为毫秒

C: [14.446 14.632 18.405 n=1000]ms

NEON: [11.920 12.032 15.336 n=1000]ms

我尝试使用 NEON 实现如下:

    int i;
const int pixelsPerLoop = 8;
for(i = 0; i < pixelCount; i += pixelsPerLoop, inPixel32 += pixelsPerLoop, outPixel16 += pixelsPerLoop) {
    //Read all r,g,b pixels into 3 registers
    uint8x8x4_t rgba  = vld4_u8(inPixel32);
    //Right-shift r,g,b as appropriate
    uint8x8_t r = vshr_n_u8(rgba.val[0], 3);
    uint8x8_t g = vshr_n_u8(rgba.val[1], 2);
    uint8x8_t b = vshr_n_u8(rgba.val[2], 3);

    //Widen b
    uint16x8_t r5_g6_b5 = vmovl_u8(b);
    //Widen r
    uint16x8_t r16 = vmovl_u8(r);
    //Left shift into position within 16-bit int
    r16 = vshlq_n_u16(r16, 11);
    r5_g6_b5 |= r16;

    //Widen g
    uint16x8_t g16 = vmovl_u8(g);
    //Left shift into position within 16-bit int
    g16 = vshlq_n_u16(g16, 5);

    r5_g6_b5 |= g16;

    //Now write back to memory
    vst1q_u16(outPixel16, r5_g6_b5);        
}
//Do the remainder on normal flt hardware

代码通过LLVM 3.0编译成以下形式(已删除.loc和额外标签):

_DNConvert_ARGB8888toRGB565:
    push    {r4, r5, r7, lr}
    mov r9, r1
    mov.w   r12, #0
    add r7, sp, #8
    cmp r2, #0
    mov.w   r1, #0
    it  ne
    movne   r1, #1
    cmp r0, #0
    mov.w   r3, #0
    it  ne
    movne   r3, #1
    cmp.w   r9, #0
    mov.w   r4, #0
    it  ne
    movne   r4, #1
    tst.w   r9, #3
    bne LBB0_8
    ands    r1, r3
    ands    r1, r4
    cmp r1, #1
    bne LBB0_8
    movs    r1, #0
    lsr.w   lr, r9, #2
    cmp.w   r1, r9, lsr #2
    bne LBB0_9
    mov r3, r2
    mov r5, r0
    b   LBB0_5
LBB0_4:
    movw    r1, #65528
    add.w   r0, lr, #7
    movt    r1, #32767
    ands    r1, r0
LBB0_5:
    mov.w   r12, #1
    cmp r1, lr
    bhs LBB0_8
    rsb r0, r1, r9, lsr #2
    mov.w   r9, #63488
    mov.w   lr, #2016
    mov.w   r12, #1
LBB0_7:
    ldr r2, [r5], #4
    subs    r0, #1
    and.w   r1, r9, r2, lsl #8
    and.w   r4, lr, r2, lsr #5
    ubfx    r2, r2, #19, #5
    orr.w   r2, r2, r4
    orr.w   r1, r1, r2
    strh    r1, [r3], #2
    bne LBB0_7
LBB0_8:
    mov r0, r12
    pop {r4, r5, r7, pc}
LBB0_9:
    sub.w   r1, lr, #1
    movs    r3, #32
    add.w   r3, r3, r1, lsl #2
    bic r3, r3, #31
    adds    r5, r0, r3
    movs    r3, #16
    add.w   r1, r3, r1, lsl #1
    bic r1, r1, #15
    adds    r3, r2, r1
    movs    r1, #0
LBB0_10:
    vld4.8  {d16, d17, d18, d19}, [r0]!
    adds    r1, #8
    cmp r1, lr
    vshr.u8 d20, d16, #3
    vshr.u8 d21, d17, #2
    vshr.u8 d16, d18, #3
    vmovl.u8    q11, d20
    vmovl.u8    q9, d21
    vmovl.u8    q8, d16
    vshl.i16    q10, q11, #11
    vshl.i16    q9, q9, #5
    vorr    q8, q8, q10
    vorr    q8, q8, q9
    vst1.16 {d16, d17}, [r2]!
Ltmp28:
    blo LBB0_10
    b   LBB0_4

完整的代码可以在https://github.com/darknoon/DNImageConvert上找到,如有需要,请前往获取。谢谢!
5个回答

10

这里提供了经过手工优化的 NEON 实现,可用于 XCode:

/* IT DOESN'T WORK!!! USE THE NEXT VERSION BELOW.
 * BGRA2RGB565.s
 *
 * Created by Jake "Alquimista" Lee on 11. 11. 1..
 * Copyright 2011 Jake Lee. All rights reserved.
 */


    .align 2
    .globl _bgra2rgb565_neon
    .private_extern _bgra2rgb565_neon

// unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);


//ARM
pDst        .req    r0
pSrc        .req    r1
count       .req    r2

//NEON
blu         .req    d16
grn         .req    d17
red         .req    d18
alp         .req    d19
rg          .req    red
gb          .req    blu

_bgra2rgb565_neon:
    pld     [pSrc]
    tst     count, #0x7
    movne   r0, #0
    bxne    lr

loop:
    pld     [pSrc, #32]
    vld4.8  {blu, grn, red, alp}, [pSrc]!
    subs    count, count, #8
    vshr.u8 red, red, #3
    vext.8  rg, grn, red, #5
    vshr.u8 grn, grn, #2
    vext.8  gb, blu, grn, #3
    vst2.8  {gb, rg}, [pDst]!
    bgt     loop

    bx      lr

这个版本比你建议的版本快得多:

  • 通过PLD增加缓存命中率

  • 不需要转换为“long”

  • 循环内指令更少

然而,仍有一些优化空间,你可以修改循环,使其每次迭代转换16个像素而不是8个。 然后你可以安排指令以完全避免两个停顿(在上面的8/iteration版本中根本不可能),并受益于NEON的双发行能力。

我没有这样做,因为它会使代码难以理解。

重要的是要知道VEXT应该做什么。

现在轮到你了。 :)

我验证了这段代码在Xcode下编译正确。 虽然我相当确定它也能正常工作,但我不能保证,因为我没有测试环境。 如果出现故障,请告诉我。我会相应地进行更正。

回见

==============================================================================

好的,这是改进版。

由于VSRI指令的性质不允许除目标外的两个操作数,所以无法创建更健壮的寄存器分配方案。

请检查源图像的图像格式。(元素的确切字节顺序)

如果它不是iOS上的默认和本机格式B、G、R、A,则您的应用程序将严重受到iOS内部转换的影响。

如果出于任何原因绝对不可能更改这个,请告诉我。 我会编写一个与之匹配的新版本。

PS:我忘了删除函数原型开头的下划线。现在已经没有了。

/*
 * BGRA2RGB565.s
 *
 * Created by Jake "Alquimista" Lee on 11. 11. 1..
 * Copyright 2011 Jake Lee. All rights reserved.
 *
 * Version 1.1
 * - bug fix
 *
 * Version 1.0
 * - initial release
 */


    .align 2
    .globl _bgra2rgb565_neon
    .private_extern _bgra2rgb565_neon

// unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);


//ARM
pDst        .req    r0
pSrc        .req    r1
count       .req    r2

//NEON
blu         .req    d16
grn         .req    d17
red         .req    d18
alp         .req    d19

gb          .req    grn
rg          .req    red

_bgra2rgb565_neon:
    pld     [pSrc]
    tst     count, #0x7
    movne   r0, #0
    bxne    lr

.loop:
    pld     [pSrc, #32]
    vld4.8  {blu, grn, red, alp}, [pSrc]!
    subs    count, count, #8

    vsri.8  red, grn, #5
    vshl.u8 gb, grn, #3
    vsri.8  gb, blu, #3

    vst2.8  {gb, rg}, [pDst]!
    bgt     .loop

    bx      lr

非常感谢您的实现!它看起来肯定比我的快,但是当我将其放入Xcode项目时,测试失败了。 - Andrew Pouliot
这段代码现在已经提交到 https://github.com/darknoon/DNImageConvert/tree/jake-alquimista-lee 的一个分支中,但似乎没有返回正确的结果。我要看一下…… - Andrew Pouliot
问题可能是由字节顺序引起的。 如果按字节读取像素,iOS的默认字节顺序是B、G、R、A。其他任何顺序都会导致内部转换,消耗宝贵的周期。 请检查您正在使用的图像格式。 与此同时,我将创建一个新版本,使用VSRI而不是VEXT,并在字节顺序方面更加稳健。 很快见到你。 - Jake 'Alquimista' LEE
我在函数原型中犯了一个错误。现在已经删除了下划线。 - Jake 'Alquimista' LEE
我仔细查看了你的代码,我确定你的源图像是按字节顺序R、G、B、A打包的,这将在每次与GPU有关的操作时消耗大量的循环。将其改为B、G、R、A,我的代码就能正常工作了。 - Jake 'Alquimista' LEE
显示剩余4条评论

1
如果你在使用iOS或OS X系统,那么你可能会很高兴地发现Accelerate.framework中的vImageConvert_RGBA8888toRGB565()等函数。该函数将8位值舍入到最近的565值。
为了获得更好的抖动效果,其质量几乎与8位颜色无法区分,可以尝试vImageConvert_AnyToAny()函数:
vImage_CGImageFormat RGBA8888Format = 
{
    .bitsPerComponent = 8,
    .bitsPerPixel = 32,
    .bitmapInfo = kCGBitmapByteOrderDefault | kCGImageAlphaNoneSkipLast,
    .colorSpace = NULL,  // sRGB or substitute your own in
};

vImage_CGImageFormat RGB565Format = 
{
    .bitsPerComponent = 5,
    .bitsPerPixel = 16,
    .bitmapInfo = kCGBitmapByteOrder16Little | kCGImageAlphaNone,
    .colorSpace = RGBA8888Format.colorSpace,  
};


err = vImageConverterRef converter = vImageConverter_CreateWithCGImageFormat(
         &RGBA8888Format, &RGB565Format, NULL, kvImageNoFlags, &err );

err = vImageConvert_AnyToAny( converter, &src, &dest, NULL, kvImageNoFlags );

任何一种方法都将进行向量化和多线程处理以实现最佳性能。

0

你可能想使用vld4q_u8()代替vld4_u8(),并相应地调整代码。很难确定问题出在哪里,但汇编看起来还不错。


0

(我不熟悉NEON,也不深入了解Ipad2的内存系统,但这就是我们用88110像素操作所做的事情,这是今天SIMD扩展的早期前身)

内存延迟有多大?

您能通过展开内部循环并在ARM从内存中提取“下一个”值时在“先前”的值上运行NEON指令来隐藏它吗? NEON手册的简要扫描表明,您可以并行运行ARM和NEON指令。


让ARM与NEON并行工作可能听起来很诱人,但这实际上是不太实用的,甚至是不可能的。虽然ARM2NEON传输速度很快,但NEON2ARM非常慢。理论上,可以让它们各自独立地并行工作,但NEON可以在每个单独的指令中完成比ARM更多的工作,以至于ARM几乎无法在这些少数周期内完成任何任务。不过,循环控制、条件分支等都是免费的,这很好。 - Jake 'Alquimista' LEE
谢谢Jake,这对我未来真正开始NEON编程时会很有用。 - Martin Thompson

0

我认为将vld4_u8转换为vld4q_u8不会提高性能。

代码似乎足够简单。我对ASM不熟悉,因此需要一些时间来深入研究。

NEON似乎很简单。但我不确定是否应该使用r5_g6_b5 |= g16而不是vorrq_u16

请查看优化级别。据我所知,NEON代码优化级别最高为1。因此,在考虑引用代码和NEON代码的默认优化水平时,由于引用代码的DEFAULT优化水平可能不同,因此性能将有所不同。

我没有发现任何可以改善当前代码的NEON区域。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接